Google presenta nueva IA para la generación de imágenes

En los últimos años, los investigadores han desarrollado múltiples redes neuronales capaces de generar imágenes automáticamente. Uno de los logros más avanzados en esta categoría es un sistema de IA llamado DALL-E 2, desarrollado por OpenAI LLC.

Según Google, su recién anunciado sistema Imagen puede superar a DALL-E 2, así como a otros modelos de IA de la categoría. Para crear Imagen, Google se basó en una serie de avances clave en la investigación de la IA realizados en la última década.

Google explica que Imagen incluye dos redes neuronales distintas. La primera recibe como dato de entrada un texto que describe la imagen que debe dibujarse. La red neuronal convierte esta descripción en un formato comprensible para la segunda red neuronal de Imagen, que se encarga de ejecutar la tarea; es decir, dibujar la imagen.

La primera red neuronal de Imagen, que se encarga de traducir una descripción de texto a una forma que el sistema pueda entender, es un modelo llamado Transformer. Los modelos Transformer son un tipo de algoritmo de procesamiento del lenguaje natural que fue inventado por Google en 2017.

Transformer se basa en el contexto para entender el significado de las palabras de una frase. Analiza el texto que rodea a una palabra, determina qué fragmentos específicos del texto influyen más en el significado de la palabra y los utiliza para tomar una decisión. Imagen de Google utiliza el modelo Transformer para convertir la descripción de una imagen proporcionada por un usuario en una incrustación, una representación matemática de datos que las redes neuronales pueden entender.

Una vez que la descripción de la imagen se convierte en una incrustación, una segunda IA integrada en Imagen la utiliza para dibujar la imagen correspondiente. Esta segunda IA es un modelo de difusión, un tipo de red neuronal que se desarrolló por primera vez en 2015.

Estas redes neuronales se diferencian de otros algoritmos de generación de imágenes por la forma en que se entrenan. Para entrenar un modelo de difusión, los ingenieros le suministran primero imágenes que contienen un tipo de error conocido como ruido gaussiano. A continuación, el modelo de difusión se encarga de encontrar la manera de eliminar el ruido gaussiano.

Los investigadores de IA suelen utilizar un conjunto de datos llamado COCO para comparar la eficacia de los algoritmos de generación de imágenes. Google afirma que Imagen superó significativamente a los sistemas de IA de la competencia, incluido el vanguardista sistema DALL-E 2 de OpenAI, en una prueba interna que utilizó COCO. Imagen también logró superar a la competencia en otra prueba basada en DrawBench, un nuevo punto de referencia desarrollado por Google.

Ilustración: Captura, sitio de Google Imagen