Resultados de MLPerf Inference 3.0: Nvidia lidera, Intel y Qualcomm impresionan, ChatGPT se debate

MLCommons ha publicado los últimos resultados de MLPerf Inference 3.0 para centros de datos y computación en el borde. Con Nvidia a la cabeza en todas las categorías de rendimiento, otras empresas como Intel, Qualcomm y las recién llegadas CTuning, Quanta Cloud Technology, SiMa y xFusion también mostraron unos resultados impresionantes. El número de organizaciones participantes aumentó a 25 en esta ocasión.

La reunión previa con la prensa y los analistas incluyó debates sobre la IA generativa, en particular ChatGPT, y sobre cómo MLPerf podría aventurarse en este espacio. El director ejecutivo de MLCommons, David Kanter, mencionó que pronto se añadiría un modelo lingüístico de gran tamaño (LLM) al conjunto de pruebas comparativas de MLPerf. BERT (representaciones codificadoras bidireccionales a partir de transformadores) es actualmente el modelo de PLN utilizado por MLPerf.

Intel presentó los primeros sistemas basados en Sapphire Rapids, mientras que Cloud AI 100 de Qualcomm demostró unas potentes métricas de potencia. La presentación de MLPerf consistió en aproximadamente 6.700 resultados de rendimiento de inferencia y 2.400 mediciones de eficiencia energética. Entre los participantes se encontraban Alibaba, ASUSTeK, Azure, cTuning, Deci.ai, Dell, Gigabyte, H3C, HPE, Inspur, Intel, Krai, Lenovo, Moffett, Nettrix, NEUCHIPS, Neural Magic, Nvidia, Qualcomm Technologies, Inc., Quanta Cloud Technology, Rebellions, SiMa, Supermicro, VMware y xFusion. Casi la mitad de los participantes midieron también la eficiencia energética.

La inferencia es un elemento crítico en la entrega de IA y, aunque no hubo cambios en el conjunto de pruebas de MLPerf Inference 3.0, se añadió un nuevo escenario de interconexión. MLCommons pretende que MLPerf sea representativo, justo y útil para comparar soluciones y ayudar a la gente a tomar decisiones de diseño.

Nvidia sigue dominando el amplio mercado de los aceleradores, mostrando el rendimiento de su nueva GPU H100 y de la recientemente lanzada L4. Los Sapphire Rapids de Intel mostraron mejoras en el último MLPerf, y el acelerador Cloud AI 100 de Qualcomm demostró una baja latencia y una excelente eficiencia energética. VMware también mostró su rendimiento virtualizando un sistema Nvidia Hopper en colaboración con Dell y Nvidia.

El debate en torno a la IA generativa y los modelos lingüísticos de gran tamaño reveló que muchos pensaban que BERT era un buen primer paso como sustituto de las cargas de trabajo LLM, a pesar de algunas preocupaciones sobre su escalabilidad.