NeMo Megatron de NVIDIA puede entrenar modelo GPT-3 de 175.000 millones de parámetros en 24 días

Anteriormente, los desarrolladores tenían dos opciones: volver a calcular todas las activaciones o guardarlas en la memoria. Aunque este método ahorraba mucha memoria, lo hacía a costa de numerosos cálculos adicionales.

El marco NeMo, que forma parte de la plataforma de IA de NVIDIA, ayuda a los usuarios a crear y entrenar modelos de aprendizaje profundo acelerados por la GPU; NeMo Megatron, que forma parte de ese marco, se centra en la recopilación de datos y el entrenamiento de grandes modelos de lenguaje (LLM), la evaluación de esos modelos y el uso de los modelos para la inferencia. NVIDIA ha anunciado ahora que, en respuesta al actual aumento de los LLM, está actualizando NeMo Megatron para lograr un 30% de aumento de la velocidad de entrenamiento mediante la implementación de los siguientes cambios:

El primero es el paralelismo de secuencias. NVIDIA explica que, anteriormente, algunas secciones de los bloques transformadores de los LLM se calculaban en todas las GPU; la nueva versión de NeMo Megatron distribuye esos bloques compartidos entre muchas GPU en lugar de duplicarlos.

SAR, o recomputación de activación selectiva, es el segundo método. El SAR realiza una función similar a la del paralelismo secuencial, ya que detecta cuándo las limitaciones de memoria obligan a recomponer algunas -pero no todas- las activaciones. En estos casos, SAR interviene, comprobando y volviendo a calcular elementos específicos de cada capa del transformador para reducir el impacto en la memoria sin incurrir en costes de computación significativos. El recálculo selectivo de las activaciones es una optimización puramente de software y no tiene ningún efecto sobre las matemáticas utilizadas para entrenar el LLM. Como resultado, puede aplicarse a cualquier tipo de escenario de aprendizaje.

En tercer lugar, hay una nueva herramienta de hiperparámetros. Según NVIDIA, la herramienta utiliza la heurística y la búsqueda empírica en cuadrícula a través de múltiples parámetros para identificar las mejores configuraciones de entrenamiento e inferencia. El paralelismo de los datos, el paralelismo de los tensores, el paralelismo de los conductos, el paralelismo de las secuencias, el tamaño de los microlotes y el número de capas de control de la activación se utilizan para evaluar las posibles configuraciones.

Según NVIDIA, estas herramientas tienen importantes efectos individuales y combinados en la velocidad de NeMo Megatron. Para los modelos más grandes, el paralelismo de secuencias y el SAR ahorraron alrededor de un 5% de memoria de activación y redujeron la sobrecarga de recálculo del 36% al 2%.

En comparación con una configuración estándar, la nueva herramienta de hiperparámetros aceleró el entrenamiento de un modelo GPT-3 de 175.000 millones de parámetros entre un 20 y un 30%. Al añadir el paralelismo de secuencias y el SAR a la nueva herramienta de hiperparámetros, el rendimiento aumentó entre un 10 y un 20% (al menos cuando se aplica a modelos de más de 20.000 millones de parámetros).

Según NVIDIA, la nueva versión de NeMo Megatron es aproximadamente un 30% más rápida que la versión anterior para esos modelos más grandes, y un modelo GPT-3 de 175.000 millones de parámetros puede entrenarse ahora en 1.024 GPU A100 en 24 días.

NVIDIA contextualizó la noticia de NeMo Megatron con uno de los más recientes modelos LLM: BLOOM se ha convertido recientemente en el mayor LLM multilingüe de libre acceso del mundo, con 176.000 millones de parámetros, y ha sido entrenado en la plataforma de IA de NVIDIA. Los LLM de este tipo, según NVIDIA, son “una de las tecnologías avanzadas más importantes de la actualidad”, con un proceso de desarrollo “costoso y largo”. Según la compañía, la comunidad de IA sigue utilizando la plataforma de IA de NVIDIA para hacer avanzar los LLM y superar estos obstáculos.

Los LLM, por supuesto, han despertado el interés de sectores ajenos a la comunidad de la IA debido a su capacidad, a menudo extraña, de ilustrar ideas, responder a preguntas, imitar la escritura humana, etc. Debido a estas capacidades, se han convertido en una fuente frecuente de preocupación entre los investigadores de IA y el público en general, y muchos proponen o implementan diversos marcos para el uso ético de los LLM.