Motores de búsqueda generativos enfrentan problemas de verificabilidad y confiabilidad

03/05/2023

Nuevas investigaciones de la Universidad de Stanford señalan que la IA generativa podría no sobresalir en una de sus tareas más fundamentales: responder a las consultas de búsqueda. Según los investigadores, las respuestas generadas por IA en cuatro buscadores públicos construyen una mera «fachada de fiabilidad» sin respaldar adecuadamente sus respuestas con referencias precisas.

El estudio, realizado por Nelson F. Liu, Tianyi Zhang y Percy Liang, auditó el chat de Bing, Neeva AI, perplexity.ai y YouChat entre finales de febrero y finales de marzo. Los investigadores se propusieron evaluar la «verificabilidad» de los buscadores, considerándola un indicador clave de la fiabilidad.

«Los buscadores generativos generan respuestas directamente a las consultas de los usuarios, junto con crear enlaces hacia las fuentes. Una característica fundamental de un motor de búsqueda generativo confiable es la verificabilidad, es decir, los sistemas deben citar de manera integral (todas las declaraciones están completamente respaldadas por citas) y precisa (cada cita respalda su declaración asociada). Realizamos una evaluación humana para auditar cuatro motores de búsqueda generativos populares: Bing Chat, NeevaAI, perplexity.ai y YouChat, en un conjunto diverso de consultas de diversas fuentes (por ejemplo, consultas de usuarios de Google históricas, preguntas abiertas dinámicamente recolectadas en Reddit, etc.). Descubrimos que las respuestas de los motores de búsqueda generativos existentes son fluidas y parecen informativas, pero a menudo contienen declaraciones no respaldadas e inexactas citas: en promedio, solo el 51.5% de las frases generadas están completamente respaldadas por citas y solo el 74.5% de las citas respaldan su oración asociada. Creemos que estos resultados son preocupantemente bajos para los sistemas que pueden servir como herramienta principal para usuarios que buscan información, especialmente dado su aparente confiabilidad. Esperamos que nuestros resultados motiven aún más el desarrollo de motores de búsqueda generativos confiables y ayuden a investigadores y usuarios a comprender mejor las deficiencias de los sistemas comerciales existentes», escriben los científicos en la presentación del informe.

Los investigadores de Stanford descubrieron que, aunque las herramientas ofrecían respuestas fluidas y útiles, más de la mitad contenían «afirmaciones sin fundamento o citas inexactas». Entre las citas ofrecidas, aproximadamente 1 de cada 4 no respaldaba la afirmación asociada. El informe considera que estos porcentajes son inaceptablemente bajos, dada la popularidad de las herramientas y su base de usuarios.

Bing Chat, propiedad de Microsoft, ofreció las citas más precisas (89,5% de acierto) entre las generalmente escasas. YouChat sólo ofreció referencias para el 11% de las respuestas. Una conclusión fundamental de la investigación (documento PDF en inglés, 25 páginas, no requiere registro) es que las interfaces de chat tienden a ofrecer respuestas siempre, incluso cuando hay información limitada. Por el contrario, los buscadores tradicionales no suelen ofrecer ningún resultado cuando no pueden responder.

La investigación mostró que Neeva.ai era la única herramienta que se negaba regularmente a responder a las preguntas (el 22% de las veces) al carecer de fuents. A diferencia de otros buscadores generativos, Neeva presenta una página de resultados convencional junto a la respuesta conversacional. Cabe destacar que el informe concluye que «las respuestas más útiles suelen contener más afirmaciones sin fundamento o citas inexactas».

A pesar de estas deficiencias, los investigadores consideraron que las herramientas son «extremadamente eficaces» a la hora de recabar respuestas de páginas web existentes y presentar argumentos equilibrados. Con un mercado mundial de anuncios de búsqueda que superará los 250.000 millones de dólares en 2022, no es de extrañar que Microsoft promocione intensamente Bing Chat, como menciona el informe de la Universidad de Stanford.

📬 Newsletter gratuito

Motores de búsqueda generativos enfrentan problemas de verificabilidad y confiabilidad

Últimos artículos

Apple desplaza a Nvidia de la cima bursátil mientras los inversionistas reevalúan el negocio de la IA

Grok incorpora Automations: tareas que se ejecutan solas según calendario o al recibir un correo

NotebookLM pasa a llamarse Gemini Notebook y estrena un entorno de nube para análisis de datos

Migrar cargas a la nube pública: cuando el rendimiento en producción no coincide con las pruebas

La carrera por la IA: el verdadero valor lo aporta la persona

Quién creó «AI Appreciation Day» y cómo la fecha se convirtió en un recurso de marketing

La IA ya no es ventaja competitiva: es infraestructura

INERH2 investigará la recarga eléctrica y de hidrógeno entre España y Portugal

Una encuesta de WatchGuard detecta un uso extendido de IA no autorizada en pymes