ChatGPT muestra declive en rendimiento, según estudio

Un nuevo estudio sugiere que ChatGPT, el popular bot de conversación de inteligencia artificial, podría estar experimentando un declive en su rendimiento, contrario a lo que podría esperarse de un modelo avanzado de IA. Presentado por primera vez el año pasado, ChatGPT cautivó rápidamente al público con sus avanzadas habilidades de conversación, similares a las humanas. Ahora, una investigación de UC Berkeley y Stanford ha constatado que las versiones recientes del bot podrían haber empeorado.

En un análisis sistemático, los investigadores evaluaron diferentes versiones de ChatGPT lanzadas en marzo y junio de 2022, probando la capacidad de la IA en áreas como matemáticas, programación y razonamiento visual. Los resultados apuntaron hacia una caída significativa en el rendimiento. Por ejemplo, la tasa de éxito de ChatGPT en la resolución de preguntas sobre números primos disminuyó de un 97.6% en marzo a un mero 2.4% en junio.

La caída fue especialmente pronunciada en la capacidad de codificación del chatbot. La investigación señaló una reducción del 52.0% al 10.0% en las generaciones de código de software directamente ejecutables de marzo a junio, respectivamente. Se observaron contracciones similares cuando se probó el bot en tareas de razonamiento visual utilizando indicaciones del conjunto de datos del Corpus de Razonamiento Abstracto.

Este declive en el rendimiento ha llevado a especular que las mejoras de seguridad podrían haber afectado inadvertidamente las otras capacidades de ChatGPT. Una teoría sugiere que las medidas para evitar que ChatGPT responda a preguntas potencialmente perjudiciales han resultado en que el bot proporcione respuestas verbosas e indirectas en lugar de respuestas claras.

Los expertos en IA también han señalado la posibilidad de que las medidas de reducción de costos estén influyendo en el rendimiento del bot. Se sugiere que varios modelos GPT-4 más pequeños podrían haber sustituido la arquitectura original, acelerando las respuestas pero reduciendo la competencia general.

Mientras tanto, el creador de ChatGPT, OpenAI, ha desactivado la función de navegación web del chatbot en respuesta a un posible mal uso. Se descubrió que la función ‘Navegar con Bing’ podría eludir los muros de pago y los ajustes de privacidad, lo que llevó a que el contenido se mostrara de manera inapropiada.

A la luz del deterioro del rendimiento del bot, algunos abogan por más modelos de código abierto que permitan la depuración comunitaria y el seguimiento continuo. Aunque se necesita más pruebas, estos hallazgos ofrecen un recordatorio crucial de que es clave manejar las expectativas del usuario a medida que la tecnología continúa evolucionando.