Una importante investigación sobre modelos generativos “alucinantes” avanza en la confiabilidad de la inteligencia artificial – Modelo LLM de IA generativa «alucina»

Investigadores de la University of Oxford han logrado un avance significativo para garantizar que la información producida por la inteligencia artificial generativa (IA Generativa o GenAI) sea sólida y confiable. En un nuevo estudio publicado en Nature [1], demuestran un método novedoso para detectar cuándo es probable que un modelo de lenguaje grande (LLM) “alucine” (un modelo LLM de IA generativa “alucina” cuando inventa hechos que suenan plausibles, pero son imaginarios). Este avance podría abrir nuevas formas de implementar LLM en situaciones en las que los “errores por descuido” son costosos, como la respuesta a preguntas legales o médicas.

Con enfoques anteriores, no era posible distinguir entre un modelo que no estaba seguro de qué decir y un modelo que no estaba seguro de cómo decirlo. Pero nuestro nuevo método supera esto”.

Dr. Sebastian Farquhar, Departamento de Ciencias de la Computación, Universidad de Oxford. Autor del estudio.

Modelo LLM de IA generativa “alucina”

Los investigadores se centraron en las alucinaciones en las que los LLM dan respuestas diferentes cada vez que se les hace una pregunta – incluso si las palabras son idénticas – lo que se conoce como ‘confabulación’.

Los LLM son muy capaces de decir lo mismo de muchas maneras diferentes, lo que puede hacer que sea difícil saber cuándo están seguros de una respuesta y cuándo literalmente están inventando algo”, dijo el autor del estudio, el Dr. Sebastian Farquhar, del Departamento de Ciencias de la Computación de la Universidad de Oxford. “Con enfoques anteriores, no era posible distinguir entre un modelo que no estaba seguro de qué decir y un modelo que no estaba seguro de cómo decirlo. Pero nuestro nuevo método supera esto”.

Para ello, el equipo de investigación desarrolló un método basado en estadísticas y utilizando métodos que estiman la incertidumbre en función de la cantidad de variación (medida como entropía) entre múltiples resultados. Su enfoque calcula la incertidumbre a nivel de significado en lugar de secuencias de palabras, es decir, detecta cuándo los LLM no están seguros del significado real de una respuesta, no solo de la frase. Para hacer esto, las probabilidades producidas por los LLM, que indican la probabilidad de que cada palabra sea la siguiente en una oración, se traducen en probabilidades sobre significados.

Nuestro método básicamente estima probabilidades en el espacio de significado, o ‘probabilidades semánticas’. El atractivo de este enfoque es que utiliza los propios LLM para realizar esta conversión”.

Jannik Kossen, Departamento de Ciencias de la Computación, Universidad de Oxford. Co-autor del estudio.

Detectar cuándo una respuesta es incorrecta

El nuevo método demostró ser mucho mejor para detectar cuándo era probale que una pregunta fuera respondida incorrectamente que todos los métodos anteriores, cuando se probó en seis LLM de código abierto (incluidos GPT-4 y LLaMA 2). Este fue el caso de una amplia gama de conjuntos de datos diferentes, incluidas respuestas a preguntas extraídas de búsquedas en Google, preguntas técnicas biomédicas y problemas matemáticos. Los investigadores incluso demostraron cómo la entropía semántica puede identificar afirmaciones específicas en biografías breves generadas por ChatGPT que probablemente sean incorrectas.

Nuestro método básicamente estima probabilidades en el espacio de significado, o ‘probabilidades semánticas’”, dijo el co-autor del estudio Jannik Kossen (Departamento de Ciencias de la Computación, Universidad de Oxford). “El atractivo de este enfoque es que utiliza los propios LLM para realizar esta conversión”.

Al detectar cuándo es probable que un mensaje produzca una confabulación, el nuevo método puede ayudar a que los usuarios de IA generativa se den cuenta cuando las respuestas a una pregunta probablemente no sean confiables, y permitir que los sistemas basados en LLM eviten responder preguntas que puedan causar confabulaciones. Una ventaja clave de la técnica es que funciona en conjuntos de datos y tareas sin conocimiento a priori, no requiere datos específicos de la tarea y se generaliza de manera sólida a nuevas tareas no vistas antes. Aunque puede hacer que el proceso sea varias veces más costoso desde el punto de vista computacional que simplemente usar un modelo generativo directamente, esto está claramente justificado cuando la precisión es primordial.

Hacer que los grandes modelos de lenguaje sean fiables y dignos de confianza sigue siendo un gran desafío y una oportunidad”.

Dr. Sebastian Farquhar, Departamento de Ciencias de la Computación, Universidad de Oxford

Un freno a una adopción más amplia de LLM

Actualmente, las alucinaciones son un factor crítico que frena una adopción más amplia de LLM como ChatGPT o Gemini. Además de hacer que los LLM no sea confiables, por ejemplo, al presentar inexactitudes en artículos periodísticos y fabricar precedentes legales, pueden incluso ser peligrosos, por ejemplo, cuando se utilizan en diagnósticos médicos.

El autor principal del estudio, Yarin Gal, profesor de Ciencias de la Computación en la Universidad de Oxford y director de investigación el AI Safety Institute del Reino Unido, dijo: “Obtener respuestas de los LLM es barato, pero la confiabilidad es el mayor cuello de botella. En situaciones donde la confiabilidad importa, calcular la incertidumbre semántica e un pequeño precio a pagar”.

El grupo de investigación del profesor Gal, el grupo Oxford Applied and Theoretical Machine Learning. Alberga este y otros trabajos que amplían las fronteras de modelos generativos robustos y confiables. Aprovechando esta experiencia, el profesor Gal actúa ahora como director de investigación en el AI Safety Institute del Reino Unido.

Los investigadores destacan que la confabulación es solo un tipo de error que pueden cometer los LLM. “La incertidumbre semántica ayuda con problemas de confiabilidad específicos, pero esto es sólo una parte de la historia”, explicó el Dr. Farquhar. “Si un LLM comete errores constantes, este nuevo método no los detectará. Los fallos más peligrosos de la IA se producen cuando un sistema hace algo malo, pero es seguro y sistemático. Todavía queda mucho trabajo por hacer”.

Más información:

[1] Detecting hallucinations in large language models using semantic entropy

Leído en:

University of Oxford