NVIDIA vuelve a dominar en pruebas de inferencia MLPerf

MLPerf, iniciativa lanzada hace cuatro años, señala que el rendimiento y la participación generales han aumentado, ya que 19 organizaciones han presentado el doble de resultados y seis veces más mediciones de potencia en el ejercicio principal de Inferencia 2.0 (centro de datos y borde).

Los resultados muestran que NVIDIA sigue siendo el principal acelerador de IA, en términos de centro de datos y de ofertas ampliamente disponibles.

David Kanter, director ejecutivo de MLCommons, la entidad responsable de MLPerf, señaló: “Ha sido un esfuerzo extraordinario por parte de la comunidad del aprendizaje automático, con tantos participantes nuevos y el tremendo aumento del número y la diversidad de las presentaciones. Me entusiasma especialmente ver una mayor adopción de las mediciones de potencia y energía, lo que pone de manifiesto el interés del sector por una IA eficiente”.

La comparativa MLPerf se celebra cuatro veces al año, con resultados de inferencia en el primer y tercer trimestre y resultados de entrenamiento en el segundo y cuarto trimestre. De los dos, el entrenamiento del modelo es más intensivo en términos de computación y tiende a caer en el ámbito de la HPC; la inferencia lo es menos, pero sigue siendo exigente. La última ronda de inferencia tenía tres puntos de referencia distintos: Inference v2.0 (centro de datos y borde); Mobile v2.0 (teléfonos móviles); y Tiny v0.7 (IoT). MLPerf divide los ejercicios en divisiones y categorías para que las comparaciones entre sistemas sean más justas y fáciles, como se muestra en la siguiente diapositiva.

NVIDIA fue, nuevamente, la empresa que obtuvo los mejores resultados, en la mayoría de las pruebas. Quacomm obtuvo unos resultados sólidos, especialmente en las aplicaciones de IA en el borde. Su acelerador Qualcomm Cloud AI 100 está pensado no sólo para tener un buen rendimiento, sino también para ser eficiente desde el punto de vista energético, cualidad que quedó patente durante las pruebas.

Durante una sesión informativa de NVIDIA con medios y analistas, David Salvator, director de producto de AI Inference and Cloud, reconoció la gran potencia de Qualcomm. “Hay un par de lugares en las redes tipo CNN en los que, francamente, Qualcomm ha ofrecido una solución bastante buena en lo que respecta a la eficiencia. Dicho esto, les superamos en ambas cargas de trabajo y, en el caso de SSD-Large, por un factor de unos tres o cuatro. Una diferencia de rendimiento realmente sustancial, si se pone en el contexto de cuántos servidores se necesitarían para conseguir un rendimiento equivalente, que realmente reduce su ventaja por vatio”.

La sesión informativa de NVIDIA también se centró en su último dispositivo Jetson AGX ORIN y su rendimiento en el borde. El software volvió a ser un impulsor clave de las ganancias de rendimiento. También se destacó la plataforma de software Triton de NVIDIA, que se utilizó tanto con sistemas basados en NVIDIA como con presentaciones basadas en instancias de AWS que utilizan su procesador Inferentia en lugar de los aceleradores de NVIDIA.

Intel, que participó en la División de Inferencia Cerrada en la última convocatoria, no lo hizo esta vez; en su lugar, optó por la División Abierta, que permite una mayor flexibilidad de los componentes del sistema y el hardware.

Hubo un par de cambios en los componentes y el procedimiento más recientes de MLPerf Inference. Uno de ellos fue acortar el tiempo necesario para ejecutar las pruebas. Como se explica en el sitio web de MLPerf, “hicimos un cambio en las reglas que permite que cada prueba de referencia, más o menos, se ejecute en menos de 10 minutos. Y eso requirió un montón de análisis estadísticos y trabajo para hacerlo bien. Pero esto ha acortado el tiempo de ejecución de algunos de los puntos de referencia que se ejecutan en sistemas de menor rendimiento. Ya sabes, hay gente que está presentando en Raspberry Pi. Y esto les permite hacerlo de una manera mucho más oportuna”.