Google presenta RT-2: un hito en la comunicación entre humanos y robots

Google LLC ha anunciado hoy el RT-2, un innovador modelo de inteligencia artificial que permite a los humanos dar instrucciones a los robots para la ejecución de tareas, lo que supone un gran avance en la interacción entre humanos y robots.

Google LLC ha anunciado hoy el lanzamiento de un innovador modelo de inteligencia artificial que permitirá a los humanos comunicar instrucciones a los robots, que a su vez ejecutarán esas órdenes.

Este modelo de última generación, denominado Robotics Transformer 2 (RT-2), es capaz de aprender tanto de información lingüística como visual. Procesa estas entradas para comprender ideas y conceptos que posteriormente traduce en acciones físicas como recoger objetos o iniciar determinados procesos. Google ha dado a conocer este nuevo modelo en un artículo publicado hoy en su blog, en el que expresa su ambición de impulsar la utilidad de la robótica.

Vincent Vanhoucke, destacado científico y responsable de robótica de Google DeepMind, ha reconocido el monumental esfuerzo que requiere hacer que los robots sean más prácticos. “Diseñar un robot capaz de realizar tareas generales requiere que se ocupe de tareas complejas y abstractas en entornos muy dinámicos, incluso en entornos con los que aún no se ha topado”, declaró.

RT-2 es parte integrante de lo que Vanhoucke describe como un sistema pionero de IA denominado modelo de visión-lenguaje-acción. Este modelo aprende de una combinación de datos visuales de la web y de robótica y utiliza estos conocimientos para generar instrucciones para el control del robot. También puede proporcionar una secuencia de razonamiento basada en estas instrucciones para realizar una serie de tareas.

Los modelos de visión-lenguaje-acción (VLM), a diferencia de los grandes modelos lingüísticos como ChatGPT de OpenAI LP o Bard de Google, necesitan fusionar el significado semántico del texto y los datos visuales en una comprensión conceptual completa y compleja para completar una tarea. Esto exige un conjunto único de retos para los ingenieros de robótica, junto con el establecimiento de objetivos para que el robot comprenda las necesidades basadas en una petición.

En un ejemplo en el que se pide a un robot que recoja la basura y la deseche, el robot utilizará un gran corpus de datos de entrenamiento para reconocer qué es la basura e identificar un cubo de basura. A continuación, se ejecuta la tarea mecánica de rastrear visualmente la basura, recogerla y depositarla en el cubo.

Los modelos de IA anteriores requerían un entrenamiento para comprender cada uno de estos conceptos por separado para proceder con una tarea de varios pasos como reconocer la basura, identificar el cubo y deshacerse de ella. Sin embargo, RT-2 puede completar la tarea sin un entrenamiento previo explícito sobre la identificación y el desecho de la basura. La versatilidad de RT-2 se extiende incluso al reconocimiento de diversos tipos de basura, como papel arrugado, envoltorios desechados o puntas de pajita rasgadas, sin que se le indique específicamente que lo haga.

Vanhoucke subraya la complejidad de la robótica convencional: “Hasta ahora, los robots funcionaban con complejas pilas de sistemas, con razonamientos de alto nivel y sistemas de manipulación de bajo nivel que trabajaban juntos de forma imperfecta. RT-2 simplifica este proceso, permitiendo que un único modelo realice el complejo razonamiento que se encuentra en los modelos fundacionales, al tiempo que genera acciones robóticas.”

Google ya había presentado un modelo visual de IA llamado PaLM-E que ayuda a los robots a interpretar visualmente su entorno. Este modelo, además de permitir a los usuarios emplear comandos de voz para tareas secuenciales, también sirve de base para RT-2. RT-2 se basa en las capacidades de un modelo anterior, RT-1, con el objetivo de dotarlo de la capacidad de abordar tareas que no ha encontrado antes a escala web.

Las pruebas realizadas por Google con el modelo RT-2 en 6.000 tareas demostraron que mantenía el rendimiento de RT-1 en tareas ya incluidas en sus datos de entrenamiento, mientras que superaba a RT-1 a la hora de enfrentarse a nuevas tareas o preguntas, con una tasa de éxito del 62% frente al 32% de RT-1.

Vanhoucke concluyó expresando su optimismo ante el futuro de la robótica: “RT-2 no sólo ejemplifica cómo los avances de la IA están influyendo rápidamente en la robótica, sino que también es inmensamente prometedor para la creación de robots más versátiles.”


Únase a la conversación

Contacto | Diario TI es una publicación de MPA Publishing International Ltd., Reino Unido. © Copyright 1997-2022