OpenAI busca combatir ‘alucinaciones’ de IA con innovador método de entrenamiento

OpenAI demuestra que la supervisión de procesos mejora el rendimiento y la seguridad de los modelos de IA, permitiéndoles autocorregirse tras dar pasos inexactos.

OpenAI ha revelado un innovador método de entrenamiento que tiene por objetivo mejorar la precisión y transparencia de los modelos de IA. A través de lo que denomina “supervisión de procesos”, la empresa ha entrenado un modelo para resolver problemas matemáticos, recompensándolo por cada paso exacto que da hacia la respuesta correcta. Este enfoque permite que los modelos generen resultados comprensibles y minimicen las denominadas “alucinaciones”.

Las “alucinaciones” de la inteligencia artificial (IA) son una problemática clave en la IA generativa y se refieren a un fenómeno en el que un sistema de IA proporciona respuestas que parecen confiables, pero en realidad son inexactas o incorrectas. Este término se usa particularmente en el contexto de los modelos de lenguaje a gran escala (como ChatGPT de OpenAI), que generan texto basándose en el aprendizaje profundo y la inferencia a partir de grandes volúmenes de datos. Las alucinaciones pueden ocurrir por varias razones, como un entrenamiento insuficiente, la ambigüedad de los datos de entrada o la ausencia de información relevante en los datos de entrenamiento. Un ejemplo típico de alucinación podría ser que un sistema de IA invente detalles que no estaban presentes en los datos de entrada, o que malinterprete la información y produzca una salida que parece plausible pero es fundamentalmente incorrecta. Un ejemplo reciente es el caso de un abogado estadounidense que durante sus preparativos para un litigio pidió a ChatGPT aportar precedentes legales. El resultado fue que ChatGPT inventó una serie de referencias, respondiendo incluso afirmativamente cuando el abogado le preguntó si eran casos reales.

En contraposición al método convencional de “supervisión de resultados”, que solo valora la respuesta final del modelo sin considerar su proceso de trabajo, este nuevo enfoque muestra una mejora significativa en la precisión y efectividad del sistema. Se descubrió que la “supervisión de procesos” mejoró el rendimiento del modelo de prueba, además de su seguridad, demostrando la capacidad de la IA de autocorregirse después de generar resultados inexactos.

Este método de entrenamiento podría ser especialmente útil para reducir la generación de “alucinaciones” en diversos sistemas basadoe en IA, incluyendo chatbots orientados al cliente y programas de generación de imágenes. Sin embargo, OpenAI reconoce que aún es desconocido cuán aplicable será esta técnica más allá del dominio matemático, resaltando la necesidad de investigar su impacto en otros dominios.

La implicación humana en las decisiones tomadas por los modelos de IA generativos, conocida como “human-in-the-loop”, es una medida sugerida para mejorar la precisión de estos sistemas. Varios expertos han advertido del riesgo que implica confiar en la IA sin verificación humana, destacando la importancia de afinar los modelos generativos en datos específicos del dominio y que los resultados sea revisados por humanos.


Únase a la conversación

Contacto | Diario TI es una publicación de MPA Publishing International Ltd., Reino Unido. © Copyright 1997-2022