"El lenguaje de las máquinas es el código y, de la misma manera que hemos avanzado mucho en el procesamiento de lenguaje natural como en los traductores, podemos enseñar a las máquinas a programar", ha asegurado el vicepresidente sénior de IBM y director de IBM Research, Darío Gil, en declaraciones a Europa Press.
Ahora, IBM ha lanzado de forma pública en la plataforma abierta GitHub las bases de datos de Project CodeNet, con 14 millones de muestras de datos, 500 millones de líneas de código en más de 55 lenguajes de programación diferentes, desde algunos modernos como C++, Java, Python y Go hasta otros antiguos como COBOL, Pascal y FORTRAN.
El uso de esta base de datos tiene como objetivo entrenar nuevas herramientas de IA que sean capaces de programar código o de traducirlo, salvando los obstáculos actuales para ello, como la información del contexto, que hace que cuanto más grande sea un programa, más difícil resulte traducirlo para una máquina.
Esta dificultad hace que los sistemas existentes basados en reglas solo son capaces de traducir entre el 50 y el 60 por ciento de un programa, incluso en lenguajes antiguos, y el resto debe hacerse a mano por un humano.
El uso de IA permite que los sistemas automáticos funcionen de manera similar a los seres humanos, ya que son capaces de extraer el contexto en modelos de secuencia a secuencia, como los presentes en los idiomas humanos.
La base de datos de IBM incluye, además de las líneas de código necesarias para entrenar a la IA, metadatos con información adicional y anotaciones sobre el tamaño del código, la huella en la memoria, el tiempo de procesamiento de CPU o el estado.
Esto sirve como indicador del 90 por ciento de los errores de código, y la información también puede utilizarse para obtener datos sobre la efectividad o posibles problemas de cada tipo de código y, a su vez, afinar su rendimiento.
Fuente de la noticia: Europa Press