NVIDIA ha anunciado una colaboración de varios años con Microsoft para desarrollar una supercomputadora de IA que podría estar entre los más potentes del mundo, con el fin de ayudar a las organizaciones a entrenar y desplegar la IA a escala.
NVIDIA aportará decenas de miles de GPUs, tecnología de red y toda su pila de software de IA a la infraestructura de supercomputación de Microsoft Azure, que ya emplea máquinas virtuales de la serie ND y NC entrenadas para la inteligencia artificial (IA) y el aprendizaje profundo.
NVIDIA entrenará la IA generativa en las instancias de máquinas virtuales (VM) de Azure, un campo que incluye modelos de lenguaje como el GPT-4 de OpenAI y el propio Megatron Turing NLG de NVIDIA.
Los clientes empresariales de Azure tendrán acceso a la pila completa de IA de la compañía, que incluye flujos de trabajo y kits de desarrollo certificados para su uso en Azure.
DeepSpeed, la suite de software de optimización de aprendizaje profundo de Microsoft utilizada para acelerar los modelos de entrenamiento, también se beneficiará de la colaboración. DeepSpeed utilizará en el futuro la arquitectura H100 Transformer Engine de NVIDIA para acelerar grandes modelos, incluida la IA generativa, hasta el doble de la velocidad anterior.
“La IA está impulsando la próxima ola de automatización en todas las empresas y la informática industrial, permitiendo a las organizaciones hacer más con menos mientras navegan por la incertidumbre económica”, dijo Scott Guthrie, vicepresidente ejecutivo del Grupo Cloud + AI de Microsoft.
“Nuestra asociación con NVIDIA permite la plataforma de supercomputación más escalable del mundo, ofreciendo capacidades de IA de vanguardia a todas las empresas en Microsoft Azure”.
Los NVIDIA A100, que utilizan la red Infiniband de 200Gbit/seg. de Quantum, se utilizan actualmente en las instancias VM de Azure. Con la incorporación de las H100, la velocidad de red se duplicará gracias al uso de la red Infiniband Quantum-2 de 400 Gbit/seg, que es capaz de manejar conjuntos de entrenamiento y cargas de trabajo de IA más grandes.
Los modelos de procesamiento del lenguaje natural (PLN), como el GPT-3 y su próximo sucesor, el GPT-4, se han asociado anteriormente a una implantación controvertida. En su día se pensó que estos modelos eran demasiado peligrosos para su difusión pública debido a su capacidad para elaborar de forma convincente noticias falsas y a su propensión a favorecer narrativas odiosas.
Los investigadores creen que el entrenamiento intensivo en supercomputadoras hará que los PNL tengan un valor incalculable para su uso empresarial en la comprensión de textos y discursos, el futuro de los asistentes virtuales y la automatización parcial o total de tareas como la programación informática.
NVIDIA ha invertido en un amplio abanico de proyectos de IA y supercomputación, y su propia supercomputadora “Selene” se sitúa constantemente entre los diez equipos más potentes del mundo desde su creación en 2020.