Meta presenta modelo de IA multisensorial de código abierto

ImageBind, el primer modelo de IA de Meta, permite a las máquinas aprender de manera similar a los humanos, uniendo información de seis modalidades diferentes, incluyendo texto, imágenes/vídeos, audio, sensores 3D, infrarrojo y unidades de medición inercial.

Meta ha anunciado un nuevo modelo de inteligencia artificial (IA) de código abierto llamado ImageBind, que vincula múltiples flujos de datos como texto, audio, imágenes, temperatura y movimiento. Aunque actualmente es solo un proyecto de investigación sin aplicaciones prácticas inmediatas, señala la posibilidad de futuros sistemas generativos de IA que puedan crear experiencias inmersivas y multisensoriales.

Meta describe en su blog un enfoque que acerca las máquinas a la capacidad humana de aprender simultáneamente de muchas formas de información, sin necesidad de supervisión explícita. La empresa ha publicado el código abierto de ImageBind, el primer modelo de inteligencia artificial (IA) capaz de unir información proveniente de seis modalidades diferentes.

Este modelo aprende un único espacio de representación compartido no solo para texto, imágenes/vídeos y audio, sino también para sensores que registran profundidad (3D), radiación térmica (infrarrojo) y unidades de medición inercial (IMU), que calculan movimiento y posición. ImageBind permite a las máquinas tener un entendimiento holístico que conecta objetos en una foto con su sonido, forma en 3D, temperatura y movimiento.

Según el blog de Meta, ImageBind puede superar a modelos especialistas previos entrenados individualmente para una modalidad particular. Pero más importante aún, ayuda a avanzar la IA al permitir a las máquinas analizar de manera más efectiva muchas formas de información juntas. Por ejemplo, usando ImageBind, Make-A-Scene de Meta podría crear imágenes a partir de audio, como generar una imagen basada en los sonidos de un bosque lluvioso o un mercado bullicioso.

ImageBind es parte de los esfuerzos de Meta para crear sistemas de IA multimodal que aprendan de todos los tipos posibles de datos a su alrededor. A medida que aumenta el número de modalidades, ImageBind abre las puertas a los investigadores para desarrollar nuevos sistemas holísticos, como combinar sensores 3D e IMU para diseñar o experimentar mundos virtuales inmersivos.

ImageBind muestra que es posible crear un espacio de representación conjunta a través de múltiples modalidades sin necesidad de entrenar en datos con cada combinación diferente de modalidades. En palabras del blog de Meta, esto es importante porque no es factible para los investigadores crear conjuntos de datos con muestras que contengan, por ejemplo, datos de audio y térmicos de una calle de ciudad bulliciosa, o datos de profundidad y una descripción de texto de un acantilado junto al mar.

Las capacidades multimodales de ImageBind podrían permitir a los investigadores utilizar otras modalidades como consultas de entrada y obtener resultados en otros formatos. ImageBind es también un paso importante hacia la construcción de máquinas que pueden analizar diferentes tipos de datos de manera holística, como lo hacen los humanos.

Meta incluye un enlace a la documentación científica del proyecto, publicada por la Universidad Cornell, como asimismo una página donde explica su funcionamiento: ImageBind: una nueva forma de ‘enlazar’ la IA a través de los sentidos.


Únase a la conversación

Contacto | Diario TI es una publicación de MPA Publishing International Ltd., Reino Unido. © Copyright 1997-2022