Meta lanza un modelo de IA que puede traducir más de 200 idiomas

Según los resultados de las pruebas de referencia BLEU de Meta, este modelo mejorará la calidad de la traducción en todas sus tecnologías en una media del 44%, porcentaje que se eleva al 70% en el caso de algunas lenguas africanas e indias.

La iniciativa “Que ninguna lengua se quede atrás” se inspiró en la escasez de herramientas de traducción de alta calidad para lo que los investigadores del lenguaje natural denominan lenguas de bajos recursos, o lenguas con pocos o ningún dato para entrenar modelos lingüísticos. Los hablantes de estas lenguas, que suelen encontrarse en África y Asia, pueden ser incapaces de interactuar plenamente con la comunicación o la información en línea en sus lenguas preferidas o nativas si no se dispone de herramientas de traducción adecuadas. El proyecto de Meta pretende solucionar esto.

“La clave de la inclusión es la lengua”. “Puedes quedarte atrás si no comprendes lo que la gente dice o escribe”, dijo Jean Maillard, ingeniero de investigación de Meta AI, en un vídeo.

Según Meta, el modelo es compatible con 55 lenguas africanas con resultados de excelente calidad, mientras que otros sistemas de traducción populares sólo son compatibles con menos de 25. Meta creó un conjunto de datos de evaluación llamado FLORES-200 para analizar el rendimiento del modelo en 40.000 direcciones lingüísticas diferentes con el fin de desarrollar el modelo NLLB-200 y confirmar que las traducciones son de excelente calidad.

El NLLB-200 y FLORES-200, así como el código de entrenamiento del modelo y el código para duplicar el conjunto de datos de entrenamiento, están ya disponibles para su descarga en la empresa. Meta también está otorgando subvenciones de hasta 200.000 dólares a organizaciones benéficas e investigadores para lo que denomina “usos impactantes del NLLB-200”, o proyectos relacionados con la sostenibilidad, la seguridad alimentaria, la violencia de género o la educación. La empresa anima específicamente a las ONG dedicadas a la traducción de dos o más lenguas africanas, así como a los estudiosos de la lingüística, la traducción automática y la tecnología del lenguaje, a solicitar la financiación.

Meta tiene ambiciosas ambiciones para su propia aplicación del modelo lingüístico. El NLLB-200 facilitará más de 25.000 millones de traducciones al día en Facebook, Instagram y las demás plataformas de la empresa. Según la corporación, la mejora de la precisión de las traducciones disponibles para más idiomas puede ayudar a la detección de contenidos peligrosos o desinformación, a la protección de la integridad de las elecciones y a la prevención de la explotación sexual y la trata de personas en línea.

Además, Meta ha iniciado una colaboración con la Fundación Wikimedia para mejorar las traducciones de Wikipedia utilizando el NLLB-200 como su motor de traducción de contenidos de fondo. Hay muchos menos artículos disponibles para los idiomas hablados mayoritariamente fuera de Europa y Norteamérica que los más de 6 millones de entradas en inglés o los 2,5 millones en sueco. Por ejemplo, sólo hay 3.260 entradas de Wikipedia en lingala, una lengua hablada en varios países africanos, incluida la República Democrática del Congo, para sus 45 millones de hablantes.

“Esto va a revolucionar la forma en que la gente vive su vida… cómo hace negocios, cómo se educa”. “Que ninguna lengua se quede atrás pone realmente ese objetivo en el centro de lo que hacemos como humanos”, dijo Al Youngblood, investigador de usuarios de Meta AI.

El NLLB-200, como la mayoría de los programas de IA, ha encontrado dificultades. Se utilizan grandes volúmenes de datos para entrenar los modelos de IA, y “en el caso de los sistemas de traducción de textos, esto suele consistir en millones de frases meticulosamente cotejadas entre idiomas”. Sin embargo, no hay muchas frases comparables entre, por ejemplo, el inglés y el fula”, señaló la empresa.

Según Meta, optimizar un único modelo para que funcione con eficacia y precisión en cientos de lenguas fue una tarea ingente que exigió creatividad. Los modelos de traducción pueden producir errores difíciles de rastrear, como errores de expresión, contenidos peligrosos y “alucinaciones”, o fallos que distorsionan completamente el significado de los datos de entrenamiento.

“Para escalar a 200 idiomas, reescribimos totalmente nuestro proceso de depuración de datos, añadiendo importantes pasos de filtrado que incluían emplear primero nuestros modelos LID-200 para filtrar los datos y eliminar el ruido de los corpus a escala de Internet con gran confianza”. “Creamos listas de toxicidad para los 200 idiomas y luego utilizamos esas listas para evaluar y filtrar cualquier toxicidad alucinada”, explicó la empresa. “Gracias a estos métodos, pudimos crear conjuntos de datos más limpios y menos peligrosos con idiomas identificados con precisión”. Esto es fundamental para aumentar la calidad de la traducción y reducir la posibilidad de toxicidad alucinada, que se produce cuando el sistema incorpora accidentalmente contenidos nocivos durante el proceso de traducción”.

Esta página presenta un demo del servicio.