El estudio “La paradoja de la IA generativa: lo que puede crear, quizá no lo entienda”, encabezado por el profesor de filosofía de la Universidad de Washington Peter West, afirma haber comprobado una hipótesis que puede hacer reflexionar sobre el alcance final de la IA, aunque no en cuestión de efectividad. Si bien el texto afirma que los modelos de inteligencia artificial pueden superar a los humanos en generación de resultados y en la rapidez de obtención de estos, de lo que a priori no hay duda, concluye que esta tecnología no alcanza las capacidades humanas en cuanto a la comprensión total del contenido que muestra si se la reta a ello. Pero, ¿es esta una debilidad que afecta a los beneficios de usar la IA o es, únicamente, un desafío poco útil en la práctica y que solo intenta ir más allá? ¿Afecta a todos los modelos? Los ejemplos con el chat GPT4 que recogemos en este artículo pueden dar una idea acerca de qué responder a estos interrogantes.
West y el resto de sus autores que han realizado esta investigación, incluidos estudiantes de doctorado de la Universidad de Washington, comienzan su exposición manifestando que, mediante experimentos controlados, han descubierto errores de comprensión -no de generación- en la inteligencia artificial que serían “inesperados” incluso para humanos no expertos, en un entorno donde se interroga a la IA sobre la información que ha proporcionado. Y plantean la paradoja de cómo conciliar las aptitudes “aparentemente sobrehumanas” de la IA generativa con la presencia de estos errores.
Considerando esta posible paradoja, el documento advierte que la sociedad debe ser precavida en el uso de la inteligencia artificial, y propone abordarla como un complemento al intelecto humano, no de forma paralela ni sustituyéndolo. La lógica es evidente en esta teoría; sin embargo, Peter West y su equipo presentan pruebas y argumentos que no pasan desapercibidos, aunque solo sea desde la perspectiva de un análisis profundo y filosófico que va más allá de la utilidad innegable de la inteligencia artificial.
El poder de discernir e interpretar
A la hora de discriminar la información, por ejemplo, eligiendo entre varias opciones tras la generación de un contenido o resumiéndolo, la IA se muestra a veces vulnerable. Estos expertos argumentan que el chat GPT4 es un 100% preciso al seleccionar una respuesta correcta entre alternativas fáciles, pero este porcentaje se reduce hasta un 19% cuando la inteligencia artificial se enfrenta a cuestiones más complejas en casos con altos niveles de dificultad -ocurriendo lo mismo cuando se trata de sintetizar, debidamente, documentos extensos, o de escoger entre el resumen más adecuado entre varios propuestos-.
No obstante, los autores reconocen que en sus pruebas han formulado preguntas altamente desafiantes, incluso “corruptas” y no relacionadas directamente con la temática central de lo generado previamente por la IA. En contrapartida, a las personas que han participado en los experimentos se les indica el contexto y la pregunta apropiados.
En cualquier caso, estos resultados indican, según el informe, que los humanos tienen una capacidad de discernir más elevada después de la creación de un contenido, a posteriori. Y se obtiene una conclusión idéntica si hablamos de interpretación de imágenes generadas por la IA: las soluciones de inteligencia artificial fallan a menudo cuando son retadas a responder preguntas, incluso acerca de las propias imágenes que han elaborado.
Tres personas construyendo una casa
Uno de los ejemplos que aporta esta teoría de la paradoja de la IA generativa es una conversación con el chat GPT4. Se le pide inicialmente que invente un relato corto sobre tres amigos que construyen una vivienda y, después de generar la historia, la inteligencia artificial debe responder a diversos interrogantes. El fragmento creado habla de las tareas que realiza cada protagonista, del tiempo que tardaron en acabar el proyecto, del esfuerzo empleado y de lo que hacían en sus descansos.
A continuación, los investigadores de Washington, se proponen desafiar al modelo. Le preguntan, en primer lugar, cuántos dibujos de la casa hizo el arquitecto, y detectan un error cuando el chat GPT4 afirma que fue solamente uno. Este fallo apunta a que el sistema solo contesta basándose en lo más evidente, concretamente en la frase “Bob, con su experiencia arquitectónica, esbozó un impresionante diseño de una casa de campo de dos pisos con un porche de madera”. Porque, en realidad, en el propio relato se señala que consiguieron su empresa “después de años de ahorrar dinero y hacer bocetos”.
Pese a que este ejemplo sencillo llama la atención y parece confirmar la paradoja en la que se basa el informe, hay otros donde eso no está tan claro. Muestra de ello es cuando se pregunta a la IA si el primer boceto de la casa tenía dos pisos, y la respuesta es afirmativa. Aquí el argumento de los autores es más débil, ya que consideran esta contestación como un error bajo el razonamiento de que no se sabe lo que incluía exactamente el primer boceto. En consecuencia, para cualquier lector externo la afirmación de la IA podría ser válida, no un error como tal, ya que según la historia contada no descarta la posibilidad de que hubiera un primer boceto con dos plantas.
Encontrando un tesoro en una colina
Esa actitud de ir más lejos por parte de estos estudiosos se refleja en otro experimento que llevaron a cabo. También se solicita al chat GPT4 que idee un relato, en esta ocasión sobre unos jóvenes que encuentran un cofre lleno de oro, plata y piedras preciosas tras atravesar un bosque. El cuento creado por la inteligencia artificial describe la aventura al detalle, y menciona en un punto que “Sara, la más sensata, desalentaba constantemente sus peligrosas aventuras”.
En referencia a ello, los firmantes del estudio preguntan al modelo si Sara desalentó a sus amigos ante la aventura para encontrar el tesoro. La réplica de la IA es clara: “Sí, Sara inicialmente desaconsejó esta aventura”. Pero esta respuesta se considera fallida, aunque solo con el alegato de que “la historia no dice esto explícitamente”. Una vez más, la ambigüedad está presente en el hecho de calificar esa oración como falsa o errónea. Porque en este supuesto la inteligencia artificial ha aportado una información que, al menos, no choca con la premisa de que la joven solía frenar las andanzas de su grupo. Y que, de hecho, podría formar parte de la narración -recordemos, totalmente voluntaria- si esta fuera más extensa. En este sentido, hay que tener en cuenta que la orden dada al sistema era la de generar una pieza de ficción de, solamente, cinco párrafos.
La prioridad: una IA generativa fiable
Estos potenciales errores más bien se podrían interpretar como inexactitudes una vez se reta a la inteligencia artificial con preguntas “trampa”. De cualquier modo, este trabajo de análisis posterior al contenido creado se ha realizado con soluciones de IA no especializadas, sino generalistas (chat GPT4 en el caso de textos, como acabamos de señalar). Y si bien recalca que hay que permanecer alerta ante los datos facilitados por esta tecnología, aspecto no baldío en absoluto, y la precaución obvia con la que se debe utilizar, no logra desmerecer su poder y las posibilidades que brinda.
Lo esencial, si abriéramos un debate en este contexto, sería valorar si esa vulnerabilidad de la IA afecta a la fiabilidad del sistema. Siendo interesante lo que afirma la investigación de West, habría que acudir a modelos generativos concretos para conocer si estos superan las limitaciones recogidas en sus páginas.
Teniendo en cuenta este estudio, ¿es posible evitar esta paradoja de la IA cuando los modelos de inteligencia artificial se entrenan solo con contenidos propios y no utiliza fuentes externas?
En esta línea, en materia legal y jurídica, Lefebvre cuenta con GenIA-L, un modelo de inteligencia artificial cuya fuente son solo contenidos elaborados por la propia editorial, de veracidad asegurada, y que ofrece respuestas que no solo abordan el problema, sino que lo analizan desde todos los ángulos posibles.
GenIA-L, a prueba como IA especializada
Continuando con GenIA-L como ejemplo de IA generativa, y retomando la teoría de la poca capacidad de la inteligencia artificial de entenderse a sí misma cuando se la pone a prueba con preguntas específicas, en Lefebvre se ha solventado esa posible problemática con los algoritmos de GenIA-L, que ya están preparados para superar esta potencial barrera. De hecho, de inicio GenIA-L genera diversas preguntas sobre la cuestión planteada, con su correspondiente respuesta. Incluso, esta IA generativa añade una visión de mayor amplitud así como diferentes perspectivas para tratar un asunto (casuística, jurisprudencia, posición doctrinal…).
Por último, la actualización de regulaciones, leyes y disposiciones que cambian y evolucionan de forma constante, hace posible que GenIA-L no presente contenido erróneo ante entornos de máxima complejidad, como los que son un inconveniente en los modelos generalistas, conforme se indica en el informe de la paradoja que hemos repasado en este artículo.
Descubre qué es GenIA-L
ElDerecho.com no comparte necesariamente ni se responsabiliza de las opiniones expresadas por los autores o colaboradores de esta publicación