El nuevo modelo de IA de OpenAI promete ser más fiable

La API de OpenAI se nutre de los modelos de lenguaje GPT-3, que no sólo pueden utilizarse para realizar tareas de lenguaje natural con sugerencias de texto cuidadosamente diseñadas, sino también para obtener resultados falsos, tóxicos o que reflejen sentimientos perniciosos.

Los modelos de IA de la organización han sido criticados en el pasado por una serie de deficiencias, como el racismo y la parcialidad contra determinados géneros y religiones. La razón se atribuye en parte al hecho de que GPT-3 se entrena para predecir la siguiente palabra en un gran conjunto de datos de texto de Internet en lugar de ejecutar con seguridad las tareas lingüísticas que el usuario desea.

Para hacer que sus modelos sean más seguros y estén más alineados con los usuarios, OpenAI utilizó una técnica conocida como aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF, por sus siglas en inglés), utilizando ayudantes humanos llamados etiquetadores para ayudar a la IA en su aprendizaje. “Cuando nuestros clientes envían peticiones a la API, nuestros etiquetadores hacen demostraciones del comportamiento deseado del modelo y clasifican varios resultados de nuestros modelos. A continuación, utilizamos estos datos para ajustar GPT-3”, explica la empresa.

Se comprobó que los modelos resultantes son mucho mejores a la hora de seguir instrucciones que el GPT-3. También inventan hechos con menos frecuencia y muestran pequeñas disminuciones de la toxicidad. Los etiquetadores de la organización prefieren los resultados de su nuevo modelo InstructGPT, de 1.300 millones, a los de su modelo GPT-3, de 175 millones, a pesar de tener más de 100 veces menos parámetros.

Estos modelos InstructGPT han estado en fase beta en la API durante más de un año y ahora son los modelos lingüísticos por defecto accesibles en la API de OpenAI. “Creemos que el ajuste de los modelos lingüísticos con seres humanos en el bucle es una poderosa herramienta para mejorar su seguridad y fiabilidad, y seguiremos avanzando en esta dirección”, explica la organización.

Sin embargo, OpenAI señaló que este modelo también tiene algunas limitaciones. Los modelos InstructGPT, por ejemplo, distan mucho de estar totalmente alineados o de ser totalmente seguros, lo que significa que siguen generando resultados tóxicos, inventando hechos o generando contenidos sexuales y violentos sin una instrucción explícita.

La empresa dijo que, para apoyar la seguridad de su API, seguirá revisando las aplicaciones potenciales antes de que salgan al mercado, proporcionando filtros de contenido para detectar terminaciones inseguras y vigilando el uso indebido.

OpenAI también destacó que, en muchos casos, alinearse con las preferencias del etiquetador medio puede no ser deseable. El ejemplo que dio es que cuando se genera un texto que afecta de forma desproporcionada a un grupo minoritario, las preferencias de ese grupo deberían ponderarse más.

Cabe mencionar que, ahora mismo, InstructGPT está entrenado para seguir instrucciones en inglés; por lo tanto, está sesgado hacia los valores culturales de las personas de habla inglesa.