Los gigantes tecnológicos adoptan datos sintéticos para entrenar IA

Los datos sintéticos han demostrado ser valiosos para el entrenamiento de modelos de IA, superando incluso a los modelos entrenados con datos reales.

Empresas como Microsoft, OpenAI y Cohere, que están invirtiendo en el desarrollo de modelos generativos de IA, consideran los datos sintéticos como una solución innovadora para satisfacer sus necesidades de información. Al superar las limitaciones de los datos creados por humanos, los datos sintéticos se están convirtiendo en un componente esencial en el entrenamiento de sus modelos de lenguaje a gran escala (LLM).

En noviembre, OpenAI, financiada en parte por Microsoft, presentó ChatGPT, provocando una oleada de productos de IA de parte de empresas como Google y Anthropic. Estos productos, al estar basados en LLM, dependen de los datos recopilados a través de la técnica de web scraping, incluyendo libros digitalizados, artículos de noticias y contenido de redes sociales. Estos datos se refinan luego mediante un proceso denominado “aprendizaje por refuerzo mediante feedback humano” (RLHF), permitiendo a los chatbots proporcionar respuestas completas y contextualmente apropiadas.

Sin embargo, a medida que las herramientas de IA evolucionan, las empresas enfrentan desafíos en el acceso a los datos y la privacidad. Los datos genéricos obtenidos de la web ya no son suficientes para mejorar aún más los modelos de IA. En consecuencia, estos modelos necesitan acceso a conjuntos de datos especializados, a menudo creados por expertos en dominios específicos o adquiridos de grandes corporaciones, lo que puede resultar costoso, aparte de requerir una considerable inversión de tiempo.

Una alternativa rentable es la data sintética o generada por computadora. Aiden Gomez, el CEO de la firma de IA Cohere, declaró a Financial Times (muro de pago) que aunque los datos sintéticos ya se están utilizando para el entrenamiento de IA, esta información no es el conocimiento general. Un ejemplo que dio es un modelo de IA entrenado en matemáticas avanzadas, donde dos modelos de IA interactúan como profesor y estudiante, con un observador humano corrigiendo inexactitudes, mejorando efectivamente la comprensión del modelo de conceptos complejos.

Subrayando aún más el potencial de los datos sintéticos, investigadores del MIT, del MIT-IBM Watson AI Lab y de la Universidad de Boston lo utilizaron para entrenar sus modelos de aprendizaje automático. Sorprendentemente, los modelos entrenados con datos sintéticos funcionaron mejor que aquellos entrenados con datos reales, particularmente en reconocer acciones en videos con menos objetos de fondo.

Un artículo de Microsoft Research, titulado ‘Textbooks Are All You Need‘ (documento PDF de 26 páginas), mostró cómo un modelo de programación, entrenado utilizando datos de libros de texto de alta calidad, tuvo un rendimiento impresionante en tareas de programación. Microsoft también demostró que los datos sintéticos podrían entrenar de manera efectiva modelos menos complejos, utilizando historias cortas generadas por GPT-4 para entrenar un modelo de lenguaje simple.

Las startups emergentes como Scale AI  ofrecen servicios de datos sintéticos, abordando problemas de privacidad y sesgos. Sin embargo, algunos críticos argumentan que el uso de datos en bruto generados por IA podría degradar la tecnología de IA debido a la posible inclusión de inexactitudes. A pesar de ello, muchos investigadores de IA ven los datos sintéticos como un enfoque prometedor para avanzar hacia una IA superinteligente.


Únase a la conversación

Contacto | Diario TI es una publicación de MPA Publishing International Ltd., Reino Unido. © Copyright 1997-2022