Su unidad de procesamiento tensorial (TPU) de 4ª generación es mejor para entrenar IA que sus predecesores, y ofrece 1,7 veces más velocidad que la GPU A100 de NVIDIA.
Google detalló las características técnicas de la TPU v4 en un artículo de investigación publicado el martes. El chip forma la base de su tercer supercomputador específico para modelos de aprendizaje automático (ML), con 4.096 TPUs, diez veces más potente que los sistemas anteriores.
En su presentación del documento, Google escribe: “En respuesta a las innovaciones en los modelos de aprendizaje automático (ML), las cargas de trabajo en producción cambiaron radical y rápidamente. La TPU v4 es la quinta arquitectura específica de dominio (DSA) de Google y su tercer supercomputador para dichos modelos de ML. Los interruptores de circuito óptico (OCS) reconfiguran dinámicamente su topología de interconexión para mejorar la escala, disponibilidad, utilización, modularidad, implementación, seguridad, energía y rendimiento; los usuarios pueden elegir una topología de toroide 3D retorcida si lo desean. Mucho más económicos, de menor consumo y más rápidos que Infiniband, los OCS y los componentes ópticos subyacentes representan menos del 5% del costo del sistema y menos del 3% de la energía del sistema. Cada TPU v4 incluye SparseCores, procesadores de flujo de datos que aceleran los modelos que dependen de incrustaciones en 5x-7x, pero utilizan solo el 5% del área de troquel y energía. Implementada desde 2020, la TPU v4 supera en rendimiento a la TPU v3 en 2,1x y mejora el rendimiento/Watt en 2,7x. El supercomputador TPU v4 es 4 veces más grande con 4096 chips y, por lo tanto, aproximadamente 10 veces más rápido en general, lo que, junto con la flexibilidad de OCS, ayuda a los modelos de lenguaje a gran escala. Para sistemas de tamaño similar, es de 4,3x a 4,5x más rápido que el Graphcore IPU Bow y de 1,2x a 1,7x más rápido y utiliza de 1,3x a 1,9x menos energía que el NVIDIA A100. Las TPU v4 dentro de las computadoras de almacenamiento de escala energética optimizada de Google Cloud utilizan aproximadamente 3 veces menos energía y producen aproximadamente 20 veces menos CO2e que las DSA contemporáneas en un centro de datos típico local”.
Los chips de alto rendimiento como el TPU son componentes necesarios para los supercomputadores, utilizados para entrenar modelos de lenguaje generativos de IA.
Google entrenó su modelo de lenguaje PaLM de 540 mil millones de parámetros usando dos clústeres de supercomputadoras TPU v4, base parcial para Bard, su respuesta a ChatGPT.
El mes pasado, Google anunció que el programa de generación de imágenes de IA Midjourney fue entrenado con TPUs de Google, VMs de GPU y la infraestructura de Google Cloud.
La empresa destacó los interruptores de circuito óptico de TPU v4, una alternativa de alta velocidad y bajo consumo a los conectores de nodo Infiniband, que se puede reconfigurar dinámicamente según las necesidades del usuario.
La TPU también utiliza 1.3-1.9 veces menos energía que los chips A100 de NVIDIA, una estadística crucial para mantener bajos los costos energéticos y los presupuestos de carbono en centros de datos y supercomputadoras.
Las TPUs de Google se utilizan en los centros de datos de Google Cloud y la empresa afirmó que los chips de 4ª generación en sus computadoras de almacén consumen tres veces menos energía, produciendo 20 veces menos emisiones de CO2 que los centros de datos contemporáneos.
NVIDIA afirmó que el H100 ofrece 6.7 veces más rendimiento que sus predecesores en pruebas de ML, mientras que el A100 proporciona 2.5 veces más rendimiento en las mismas mediciones. Grandes empresas tecnológicas han recurrido a NVIDIA para hardware de IA, y la gigante de las GPU anunció que su servicio de supercomputadoras en la nube DGX estará disponible a través de Google Cloud.