Diario TI

Nueva arquitectura permite a los robots recordar qué observaron, dónde y cuándo

Investigadores del MIT y la Universidad Tecnológica de Núremberg desarrollaron una arquitectura que combina video, mapas tridimensionales, descripciones generadas por IA y marcas temporales.

Los robots pueden reconocer objetos y desplazarse por espacios físicos, pero mantener un registro consultable de lo que han observado continúa siendo un desafío. Una nueva arquitectura desarrollada por investigadores del Instituto Tecnológico de Massachusetts (MIT) y la Universidad Tecnológica de Núremberg busca resolver parte de ese problema.

El sistema se denomina DAAAM, sigla de «Describe Anything, Anywhere, at Any Moment». Su propósito es construir una memoria espaciotemporal que permita registrar qué objetos ha visto un robot, dónde se encontraban y en qué momento fueron observados.

El trabajo fue desarrollado por Nicolas Gorlo, Lukas Schmid y Luca Carlone. Según un artículo publicado por StudyFinds el 18 de junio, la arquitectura puede funcionar mientras el robot se desplaza y posteriormente responder preguntas formuladas en lenguaje natural.

DAAAM recibe imágenes de una cámara con detección de profundidad, capaz de captar tanto el color como la distancia de los objetos. A partir de esa información crea lo que los investigadores denominan un «grafo de escena 4D».

Esta representación funciona como una base de datos actualizada continuamente. Cada objeto puede quedar asociado con una descripción escrita, una posición dentro del espacio tridimensional y una referencia temporal.

De esta forma, el sistema no se limita a reconocer que un determinado objeto existe. También puede conservar información sobre el lugar y el momento en que fue observado.

Descripciones sin detener el procesamiento

Uno de los principales obstáculos es la capacidad de procesamiento requerida. Generar descripciones detalladas mediante modelos de inteligencia artificial resulta demasiado lento para ejecutarse sobre cada cuadro de video.

Los investigadores abordaron este problema seleccionando las imágenes más claras disponibles de cada objeto y agrupándolas para procesarlas en conjunto. La generación de descripciones se ejecuta además en un proceso separado del seguimiento visual.

De acuerdo con el estudio, este procesamiento por lotes acelera la inferencia aproximadamente diez veces respecto del método convencional. Así, el sistema puede seguir objetos a una velocidad de diez cuadros por segundo mientras incorpora nuevas descripciones a su memoria.

Una vez construido el registro, un agente de razonamiento puede consultarlo mediante lenguaje natural. El robot podría responder, por ejemplo, dónde vio por última vez una herramienta, cuándo observó determinado objeto o cuánto tiempo lleva abierta una puerta.

Resultados experimentales

DAAAM fue evaluado en tareas de preguntas y respuestas sobre entornos interiores y exteriores. Según los autores, el sistema mejoró en 53,6% la exactitud de las respuestas del benchmark OC-NaVQA frente a las alternativas comparadas.

También redujo en 21,9% los errores relacionados con la posición y en 21,6% los errores temporales. En otra prueba, destinada a identificar y alcanzar una secuencia de lugares descritos mediante lenguaje natural, aumentó en 27,8% la precisión respecto del método de referencia más competitivo.

Estos resultados corresponden a tareas experimentales y no implican que el sistema reproduzca la memoria humana. DAAAM mantiene una representación estructurada y consultable de las observaciones captadas por sus sensores.

Limitaciones pendientes

Los autores reconocen varias limitaciones. El modelo utilizado para describir objetos puede equivocarse cuando encuentra elementos poco habituales o alejados de los datos empleados durante su entrenamiento.

En uno de los ejemplos documentados, el sistema describió unas puertas de ascensor como si tuvieran manillas. El error muestra que el modelo puede completar detalles basándose en asociaciones aprendidas, incluso cuando estos no aparecen en la escena observada.

La velocidad de procesamiento también podría ser insuficiente para plataformas que se desplazan rápidamente, como drones, o para algunas aplicaciones de realidad virtual. Además, conservar el historial completo de las descripciones puede generar problemas de almacenamiento durante operaciones prolongadas.

Los investigadores plantean como trabajo futuro el desarrollo de mecanismos de resumen que permitan reducir ese historial sin eliminar información importante.

DAAAM representa, por ahora, una arquitectura de investigación. Su aporte consiste en combinar descripciones abiertas, información tridimensional y referencias temporales dentro de una memoria que puede ser consultada por otros sistemas de inteligencia artificial.

📬 Newsletter gratuito

Últimos artículos