Una investigación reciente llevada a cabo por The Boston Consulting Group (BCG) ofrece una visión matizada de las implicaciones para el rendimiento de confiar en herramientas de IA generativa como ChatGPT. En el exhaustivo estudio participaron más de 750 consultores divididos en tres grupos distintos, cada uno con distintos niveles de acceso a las tecnologías de IA, incluidas las versiones de ChatGPT potenciadas por GPT-3 y GPT-4.
Los investigadores establecieron una línea base de rendimiento asignando 18 tareas similares a los participantes. Se les pidió que completaran estas tareas con o sin la ayuda de herramientas de IA generativa. Los resultados fueron sorprendentes: Los asesores con IA completaron un 12,1% más de tareas de media, las completaron un 25% más rápido y ofrecieron resultados de una calidad significativamente superior.
Además, los beneficios de la IA se observaron en todo el espectro de habilidades. Los asesores por debajo de la media mejoraron sus resultados en un 43%, mientras que los asesores por encima de la media experimentaron un incremento del 17%. Sin embargo, el estudio también suscitó preocupación por la dependencia excesiva de estas tecnologías. Cuando se aplicaron a tareas “fuera de las limitaciones” de las capacidades establecidas de la IA, se produjo un descenso significativo del 19% en la resolución correcta de problemas entre los usuarios de la IA.
Los investigadores describieron un fenómeno que denominaron “frontera tecnológica irregular”. En esta frontera, la IA ofrece beneficios inconsistentes, a veces mejorando el rendimiento humano y a veces degradándolo. El estudio insta a los profesionales a estar atentos, ya que las capacidades de la IA, en rápida evolución y mal comprendidas, pueden conducir a un rendimiento subóptimo si se aplican mal.
Las conclusiones del Boston Consulting Group se hacen eco de un estudio similar realizado por la Universidad de Purdue. En él se descubrió que los ingenieros de software que utilizaban ChatGPT corrían el riesgo de aceptar respuestas inexactas, concretamente el 52% de las veces. Un sorprendente 77% de las respuestas también se consideraron verborreicas. Los participantes a menudo creían las respuestas incorrectas debido a su presentación exhaustiva y bien articulada.