Meta anuncia chatbot que aprende de las conversaciones e interacciones

Según Meta, BlenderBot 3 es el primer chatbot del mundo de acceso público con 175.000 millones de parámetros, dotado modelos, código, conjuntos de datos y tarjetas de modelo. El primer BlenderBot se lanzó hace dos años, con el potencial de combinar habilidades como la empatía, la experiencia y la personalidad en un sistema de IA completo. Los investigadores de Meta AI añadieron una función de memoria a largo plazo a BlenderBot 2, que salió al mercado un año después, lo que le permite mantener conversaciones más interesantes e inteligentes sobre casi cualquier tema.

El objetivo a largo plazo de Meta AI es crear sistemas de IA más realistas que puedan interactuar con las personas de forma más inteligente, útil y segura, y para ello, los modelos que los potencian deben adaptarse a las demandas siempre cambiantes de los consumidores, según la empresa.

Meta afirma que BlenderBot 3 supera a cualquier chatbot porque está construido sobre su modelo de lenguaje OPT-175B, de acceso público, que es 58 veces mayor que el modelo que impulsó a BlenderBot 2. El chatbot actualizado, según los investigadores de Meta AI, puede buscar conocimientos en Internet para poder conversar sobre prácticamente cualquier tema, a la vez que perfecciona sus habilidades conversacionales a través de interacciones naturales y comentarios “in the wild”.

“La mayoría de los conjuntos de datos disponibles públicamente hasta ahora suelen adquirirse a través de proyectos de investigación que utilizan anotadores que no pueden representar la diversidad del mundo real. No ocurre lo mismo con BlenderBot 3, que puede aprender de las interacciones con cualquier persona”, señalan en Meta AI. La empresa ofrece una demostración pública en vivo, que actualmente sólo está disponible en Estados Unidos.

Según Meta AI, la experiencia obtenida de estas interacciones le permitirá mantener conversaciones más largas y diversificadas y emitir comentarios más variados. Quienes chatean con él, por ejemplo, pueden dar un pulgar hacia arriba o hacia abajo a cada respuesta, expresando lo que no les ha gustado de cada comentario negativo, como por ejemplo, porque se salió del tema, fue descortés, fue spam, no tuvo sentido o cualquier otra razón.

BlenderBot 3 utiliza dos potentes algoritmos de aprendizaje automático llamados SeeKeR y Director para aprender a través de las interacciones y los comentarios. En el caso de Director, esto ayuda al chatbot a generar respuestas a través de dos mecanismos: el modelado del lenguaje y la categorización. El primero proporciona a BlenderBot 3 la respuesta más adecuada y fluida, basándose en sus datos de entrenamiento, mientras que el clasificador informa al modelo de lo que es correcto e incorrecto en esa respuesta, basándose en las aportaciones humanas. Para que se genere una respuesta, tanto el mecanismo modelador del lenguaje como el clasificador deben estar de acuerdo en que es adecuada.

“Podemos entrenar al clasificador para que castigue los comentarios de baja calidad, tóxicos, contradictorios o repetitivos, así como los que en general no son útiles”, señalan los investigadores.

BlenderBot 3 también aborda la problemática de que no todos quienes lo utilizan tienen buenas intenciones. Para ello, integra algoritmos de aprendizaje orientados a discriminar entre la información beneficiosa y la perjudicial. Funcionan filtrando o rebajando los comentarios cuestionables. El proceso tiene en cuenta el comportamiento del usuario a lo largo de la conversación, aprendiendo a confiar en los que tienen buenas intenciones y a desconfiar de los que intentan trollear al chatbot.

Según los primeros resultados de Meta AI, BlenderBot 3 se vuelve más seguro e inteligente a medida que adquiere experiencia. Anima a la gente a interactuar con el chatbot y ha declarado que seguirá proporcionando datos conversacionales orgánicos de la demo a través de instantáneas del modelo en el futuro.

“Esperamos que este estudio inspire el desarrollo de sistemas de IA inteligentes cada vez mejores que puedan interactuar con las personas de forma segura y útil”, añaden los investigadores.