Bryan Catanzaro, vicepresidente de investigación aplicada de aprendizaje profundo de NVIDIA, realizó recientemente una presentación en el evento AI Hardware Summit, donde expuso cómo su compañía está abriendo nuevas fronteras en el ámbito del procesamiento de lenguaje natural (NLP) en lo relativo a la traducción de idiomas.
Catanzaro explicó que el modelado del lenguaje es un ejemplo de nuevas ideas que se plantea el sector, y que son altamente relevantes en términos comerciales para empresas de distintos rubros. Según el experto, estamos asistiendo a una explosión en la complejidad de los modelos en muchas áreas diferentes del modelado del lenguaje, con un ritmo de complejidad que actualmente se duplica cada dos meses.
En NVIDIA, donde se emplean regularmente cantidades ingentes de potencia de cálculo y una amplia gama de GPU y hardware y software relacionados con este trabajo, los recientes experimentos con la traducción del lenguaje están arrojando resultados fascinantes que prometen ayudar a alcanzar ese esquivo objetivo.
Catanzaro explicó que para 2023, NVIDIA tiene previsto alcanzar los 100 billones de parámetros, en modelos individuales, y que para llevar a cabo este trabajo, es decir, para entrenar los modelos, se requiere una capacidad de cálculo ingente, que a su vez implica un costo potencial de millones de dólares. En algunos casos el entrenamiento de un modelo podría costar hasta mil millones de dólares.
“Ahora bien, ¿por qué alguien entrenaría un modelo que es tan caro?”, preguntó. “Porque estos modelos lingüísticos son nuestros primeros pasos hacia la inteligencia artificial generalizada, con un aprendizaje de pocos pasos. Y eso es enormemente valioso y muy emocionante. Construir un modelo para cuyo entrenamiento se necesiten mil millones de dólares significaría esencialmente reinventar toda una empresa, y ese modelo tendría que ser utilizable en muchos contextos diferentes para que mereciera la pena”.
Para ilustrar su planteamiento, Catanzaro tomó un ejemplo de traducción de un gran modelo lingüístico y experimentó insertando la frase “I live in California” en inglés. Rápidamente recibió del modelo su traducción al español: “Yo vivo en California”.
Catanzaro explicó que iba a pedirle al modelo que hiciera una traducción, pero el modelo lo hizo por sí solo antes de que él se lo pidiera. “Realmente hizo la traducción adecuada. Y tampoco fue una traducción palabra por palabra. Si te fijas bien, la razón de que esto sea tan extraordinario es que este modelo lingüístico no fue entrenado para hacer una traducción en absoluto”.
En cambio, para lo que se entrenó el modelo antes de utilizarlo de esta manera fue para predecir la siguiente palabra en una secuencia de texto. El modelo se había entrenado previamente con una enorme cantidad de datos de Internet, según explicó.
“El modelo, para poder aprender la tarea de predecir la siguiente palabra, tenía que empezar a entender varios conceptos de alto nivel, como el hecho de que hay una lengua inglesa, que hay una lengua española y que tienen un vocabulario que está relacionado”, dijo. “Por ejemplo, la palabra ‘live’, se ve un poco diferente en inglés y en español, pero de alguna manera el modelo sabe que son los mismos conceptos”. Igual de sorprendente fue que el modelo “captara la idea de que podía traducir del inglés al español”, dijo. “De alguna manera, el modelo tuvo que aprender eso”.
“Y si lo pensamos, es realmente impresionante ver que un modelo que sólo se entrenó con una secuencia de palabras pueda aprender todos esos conceptos”, dijo Catanzaro. “Y eso es extraordinariamente emocionante porque es un paso hacia la inteligencia artificial generalizada. Y la razón por la que es tan emocionante es porque toda la actividad humana, todo el ingenio y la sabiduría humanos han sido codificados en el lenguaje”.
Lo que mostró el modelo fue notable, dijo. “Es una forma general de razonamiento que nunca habíamos tenido antes, y eso es muy valioso y muy emocionante”.
Según Catanzaro, los resultados son prometedores para los conceptos de PNL e IA y para el avance de la sociedad y el mundo. “Este es el tipo de capacidades que está generando tanta inversión en el modelado del lenguaje a gran escala. Creo que vamos a ver una inversión sostenida simplemente porque las perspectivas son muy grandes”.
“Este es el tipo de avances tecnológicos en los que NVIDIA ha estado trabajando en sus casi 30 años de existencia, dijo el experto”, agregando que “El trabajo fundamental que hacemos consiste en optimizar juntos el hardware y el software, desde los chips hasta los sistemas, pasando por el software, los frameworks, las bibliotecas, los compiladores, los algoritmos y las aplicaciones. Queremos que los inventores, los investigadores y los ingenieros que idean la IA del futuro sólo estén limitados por sus propios”.
Bryan Catanzaro es vicepresidente de Applied Deep Learning Research en NVIDIA, donde dirige un equipo que busca nuevas formas de utilizar la IA para mejorar proyectos que van desde la comprensión del lenguaje hasta los gráficos por ordenador y el diseño de chips. La investigación de Bryan en NVIDIA condujo a la creación de CUDNN y, más recientemente, ayudó a dirigir el equipo que inventó DLSS 2.0. Antes de trabajar en NVIDIA, trabajó en Baidu en la creación de sistemas de última generación para el entrenamiento y el despliegue del reconocimiento del habla basado en el aprendizaje profundo de principio a fin. Bryan tiene un doctorado en Ingeniería Eléctrica y Ciencias de la Computación en la Universidad de California, Berkeley.