Como cualquier otro modelo de IA generativa, Google Bard se basa en una combinación de datos de entrenamiento y modelos de aprendizaje automático. Ahora bien, cuando se trata de modelos de lenguaje automático, Google utilizó su Modelo de Lenguaje para Aplicaciones de Diálogo (LaMDA). Pero eso se refiere a la sintaxis del chatbot. Para los datos de entrenamiento, hay innumerables bibliotecas de código abierto y gratuitas para los investigadores de IA.
Sin embargo, hay muchas posibilidades de que Google no las haya consultado. Es decir, es probable que los datos de dominio público no fueran suficientes para Bard. De hecho, según The Information, Google recurrió a los datos de ChatGPT que OpenAI compartió públicamente a través de ShareGPT.
Básicamente, los datos contienen respuestas de ChatGPT, y en el sitio web se puede incluso compartir las respuestas del chatbot de OpenAI. Las acusaciones no surgen de la nada.
Un investigador de IA de Google, Jacob Devlin, expresó su preocupación por que Google violara las condiciones de servicio de OpenAI al recopilar datos del sitio web para entrenar su propio chatbot Bard, según informó The Information la semana pasada. Devlin pensaba que la práctica no sólo era indebida, sino que haría que Bard se comportara de forma demasiado similar a ChatGPT. Tras exponer sus preocupaciones a Pichai, al parecer dimitió de la empresa y se unió a OpenAI.
Google negó haber entrenado a Bard con texto producido por ChatGPT. “Bard no está entrenado con datos de ShareGPT o ChatGPT”, dijo un portavoz del gigante de la publicidad a The Verge. Sin embargo, el representante se negó a comentar si Google había utilizado alguna vez texto generado por ChatGPT para entrenar a Bard.
Existe la impresión generalizada de que Google “estropeó” el lanzamiento de Bard al adelantar los plazos de lanzamiento.
Anteriormente, Business Insider informó de que Sundar Pichai pidió a los empleados de Google que se tomaran hasta cuatro horas extra para limar las asperezas de su competidor de ChatGPT.
De momento, aún no está claro si Google utilizó los datos de ChatGPT para entrenar a Bard. Existe la posibilidad de que Google se haya basado en ellos antes del lanzamiento de Bard. Aun así, no está claro si Bard sigue funcionando con alguno de esos datos de entrenamiento. Pero de momento, Google está negando todas las acusaciones en tal sentido.