NVIDIA continúa imponiéndose en MLPerf, incluyendo Cloud AI de Microsoft

MLCommons, el consorcio de ingeniería abierta, ha publicado los nuevos resultados de MLPerf Training v1.1, el conjunto de pruebas de rendimiento del aprendizaje automático de la organización.

En el ejercicio MLPerf, Microsoft Azure demostró ser la nube más rápida del mundo para IA utilizando instancias impulsadas por NVIDIA a gran escala. La serie de máquinas virtuales NDm A110 v4 de Azure ejecutó pruebas de rendimiento en hasta 2.048 GPUs NVIDIA A100-80GB, completando cada prueba en menos de 18 minutos.

NVIDIA lideró siete de las ocho cargas de trabajo evaluadas en la división cerrada con sistemas que contenían hasta 4.320 aceleradores A100. Microsoft Azure encabezó la octava categoría (imágenes médicas) con su instancia en la nube impulsada por NVIDIA. Graphcore y Habana Labs también presentaron resultados mejorados en las pruebas ResNet-50 y BERT.

MLPerf Training mide el tiempo que se tarda en entrenar modelos de aprendizaje automático para alcanzar un objetivo de calidad estándar en una serie de tareas que incluyen la clasificación de imágenes, la detección de objetos, la PNL, la recomendación y el aprendizaje por refuerzo.

MLPerf Training es un sistema completo de evaluación comparativa que pone a prueba los modelos de aprendizaje automático, el software y el hardware. MLPerf crea una forma fiable y coherente de realizar un seguimiento del rendimiento a lo largo del tiempo, y los puntos de referencia justos y representativos crean unas “condiciones equitativas” en las que la competencia impulsa al sector, acelerando la innovación. En comparación con la ronda de presentación anterior, los mejores resultados de las pruebas comparativas mejoraron hasta 2,3 veces, mostrando una mejora sustancial en el hardware, el software y la escala del sistema.

Al igual que en los resultados anteriores de MLPerf Training, las presentaciones constan de dos categorías: cerradas y abiertas. Las presentaciones cerradas utilizan el mismo modelo de referencia para garantizar la igualdad de condiciones entre los sistemas, mientras que los participantes en la categoría abierta pueden presentar una variedad de modelos. Los envíos se clasifican además por disponibilidad dentro de cada categoría, incluyendo los sistemas disponibles en el mercado, los que están en fase de preestreno y los RDI.

Los resultados de MLPerf Training v1.1 promueven el objetivo de MLCommons de proporcionar puntos de referencia y métricas que nivelen el campo de juego de la industria mediante la comparación de sistemas, software y soluciones de ML. La última ronda de evaluaciones comparativas recibió propuestas de 14 organizaciones y publicó más de 185 resultados revisados por pares para sistemas de aprendizaje automático que abarcan desde dispositivos de borde hasta servidores de centros de datos. Las presentaciones de esta ronda incluyeron innovaciones de software y hardware de Azure, Baidu, Dell, Fujitsu, GIGABYTE, Google, Graphcore, HabanaLabs, HPE, Inspur, Lenovo, NVIDIA, Samsung y Supermicro.

“Estamos encantados de contar con una participación tan amplia en MLPerf Training”, ha declarado Victor Bittorf, copresidente del grupo de trabajo de MLPerf Training. “Enhorabuena a todos nuestros participantes en esta ronda, especialmente a los que se presentan por primera vez. Es especialmente emocionante ver los avances en la División Abierta”.

“Mirando hacia atrás a la primera ronda de MLPerf Training en 2018, es notable que el rendimiento haya mejorado en 30X para algunos de nuestros puntos de referencia”, dijo David Kanter, Director Ejecutivo de MLCommons. “Ese rápido aumento del rendimiento acabará desencadenando nuevas innovaciones de aprendizaje automático que beneficiarán a la sociedad”.