Google acaba de desvelar un importante avance en la velocidad de los procesadores, al revelar que una supercomputadora de IA alimentada por sus unidades de procesamiento tensorial (TPU) ofrece un rendimiento superior y una mayor eficiencia energética en comparación con una máquina equivalente que funcione con GPU Nvidia A100. Según el documento de investigación de Google, las supercomputadoras, dotadas de 4.000 TPU de última generación, rinden 1,7 veces más rápido y demuestran una eficiencia 1,9 veces mayor que un equipo similar basado en una GPU Nvidia A100.
Los investigadores detallaron que las 4.000 TPU se interconectaron utilizando conmutadores de circuitos ópticos desarrollados a medida, lo que facilitó la adaptabilidad a la hora de sortear componentes averiados y modificar la topología de interconexión de las supercomputadoras para agilizar el rendimiento de los modelos de aprendizaje automático. Aunque las TPU individuales no podían rivalizar con la velocidad de procesamiento de los chips de IA de primer nivel de Nvidia, la innovadora tecnología de conmutación óptica de Google compensó la discrepancia, aumentando el rendimiento general.
Las GPU A100 de Nvidia se han convertido en el estándar de referencia para el entrenamiento de modelos de IA, lo que ha llevado a las principales empresas tecnológicas a adquirir miles de unidades. Por ejemplo, el GPT-4 de OpenAI se entrenó en una supercomputadora equipada con 10.000 GPU Nvidia. Sin embargo, la compañía se prepara para sacar al mercado su GPU H100, que, según afirma, es nueve veces más rápida que las A100 utilizadas en la comparación de Google. Esta ventaja de velocidad contrarrestaría las ventajas de la tecnología de interconexión óptica de Google.
Google emplea las TPU en el 90% de sus iniciativas de IA, pero no tiene intención de competir con Nvidia en el mercado comercial de los chips de IA. Las TPU de Google son patentadas y no se espera que salgan de sus centros de datos o de las supercomputadoras de IA. Google Cloud, que posee una cuota del 11% del mercado de la nube pública, se sitúa por detrás de AWS de Amazon y Azure de Microsoft, que tienen una cuota del 34% y del 21%, respectivamente.
Google ha llegado a un acuerdo con Nvidia para poner el H100 a disposición de los clientes de Google Cloud. Esta asociación significa que se prevé que la posición de Nvidia como líder del mercado de chips de IA siga siendo indiscutible. A medida que aumenta la inversión en capacidad de entrenamiento e inferencia para la IA generativa, Nvidia está preparada para mantener su dominio del mercado.