PaLM 2 de Google supera a su predecesor con cinco veces más datos de entrenamiento

Google PaLM 2 ha sido un salto cuántico en el entrenamiento de modelos de lenguaje.

Google presentó PaLM 2, su último modelo de lenguaje grande (LLM), en su conferencia anual de desarrolladores I/O la semana pasada. Sin embargo, sus afirmaciones en ese momento sobre el uso de un conjunto de datos de entrenamiento más pequeño han sido cuestionadas.

Un informe de CNBC ha encontrado que PaLM 2 en realidad utiliza casi cinco veces la cantidad de datos de entrenamiento que su predecesor, PaLM (Pathways Language Model), dándole la capacidad de realizar tareas como matemáticas, codificación avanzada y escritura creativa.

Según CNBC, el modelo PaLM 2 ha sido entrenado en 3.6 billones de tokens, un aumento significativo en comparación con los 780 mil millones de tokens de PaLM.

Los tokens, que son secuencias de palabras, juegan un papel crucial en el entrenamiento de los LLM ya que entrenan al modelo para predecir la siguiente palabra en una secuencia dada. Usando tokens como bloques de construcción, los LLM adquieren la capacidad de entender y generar patrones de lenguaje coherentes.

Lo que es más pequeño en PaLM 2 en comparación con PaLM son los parámetros de entrenamiento. Según los informes, el modelo original fue entrenado con 540 mil millones de parámetros. PaLM 2, en contraste, ha sido entrenado en 340 mil millones de parámetros.

Google dice que PaLM 2 ha sido entrenado en 100 idiomas y ha demostrado un nivel de dominio en exámenes de competencia lingüística avanzada.

PaLM 2 utiliza una técnica conocida como “escalado óptimo de cálculo” para mejorar su eficiencia y rendimiento general. Esto resulta en una inferencia más rápida, una reducción en el recuento de parámetros para el servicio y una reducción en los costos de servicio.

Google hizo un anuncio significativo sobre la integración de PaLM 2 en su ecosistema en la conferencia I/O, presentando más de 25 nuevos productos y características que aprovechan el modelo.

La compañía introdujo un motor de búsqueda actualizado que emplea tecnología de IA generativa, en un intento de competir con la integración de GPT-4 en Bing de Microsoft.

Aunque Google ha sido entusiasta al demostrar el potencial de su tecnología de inteligencia artificial, la compañía ha sido reacia a divulgar información específica sobre sus datos de entrenamiento.

De manera similar, OpenAI, la organización detrás de ChatGPT, también ha optado por no revelar detalles específicos sobre su último LLM, GPT-4.

Tanto Google como OpenAI citan la naturaleza competitiva de la industria para justificar su reserva con la información.


Únase a la conversación

Contacto | Diario TI es una publicación de MPA Publishing International Ltd., Reino Unido. © Copyright 1997-2022