Google anunció Gemini 3.5 Live Translate, un nuevo modelo de audio para traducción de voz a voz en tiempo casi real, con detección automática de más de 70 idiomas.
Google presentó Gemini 3.5 Live Translate, un modelo de audio diseñado para traducción de voz a voz en tiempo casi real, con soporte para más de 70 idiomas.
En un artículo publicado el 9 de junio de 2026 en The Keyword, Anuda Weerasinghe, product manager, y Tony Lu, senior staff software engineer de Google, señalan que el modelo detecta automáticamente los idiomas y genera traducciones habladas con una voz más fluida y natural.
A diferencia de sistemas por turnos, que esperan a que una persona termine de hablar antes de responder, Gemini 3.5 Live Translate procesa el habla en streaming. Según Google, el modelo traduce de forma continua, intentando equilibrar la espera necesaria para captar contexto con la necesidad de mantenerse sincronizado con el hablante.
La compañía afirma que el resultado es un audio más fluido, sin pausas incómodas, y que la traducción se mantiene con solo algunos segundos de retraso respecto de la persona que habla. Esta descripción corresponde a las capacidades anunciadas por Google; el artículo no incluye una evaluación independiente de latencia o calidad.
El despliegue comenzó el mismo día del anuncio en varios productos. Para desarrolladores, Gemini 3.5 Live Translate está disponible en vista previa pública mediante Gemini Live API y Google AI Studio. Para empresas, llegará en vista previa privada a Google Meet durante junio. Para usuarios generales, se está incorporando a Google Translate en Android e iOS.
Google indica que el modelo maneja entradas multilingües sin necesidad de configurar manualmente los idiomas. También sostiene que tiene robustez frente a ruido, una característica pensada para llamadas, reuniones, clases, transmisiones o entornos donde el audio puede ser irregular.
La compañía menciona integraciones con plataformas como Agora, Fishjam, LiveKit, Pipecat y Vision Agents, que permitirán a desarrolladores crear aplicaciones de traducción de voz sin gestionar toda la infraestructura de streaming en tiempo real. También indica que Grab está probando el modelo para facilitar comunicación multilingüe entre conductores y viajeros durante recogidas. Según Google, los usuarios de Grab realizan más de 10 millones de llamadas de voz mensuales dentro de la plataforma; la fuente presenta esa cifra como contexto de uso, no como resultado del despliegue.
En Google Meet, la función de traducción de voz usará Gemini 3.5 Live Translate para ampliar el alcance de la experiencia. Google señala que el servicio pasará de un límite anterior de cinco idiomas a más de 70, y que permitirá más de 2.000 combinaciones de idiomas en una misma reunión, en lugar de traducir solo desde y hacia inglés.
La vista previa privada en Meet comenzará este mes para clientes empresariales seleccionados de Google Workspace, con un despliegue más amplio previsto para más adelante este año.
En la aplicación Google Translate, la actualización se desplegará globalmente en Android e iOS. Los usuarios podrán usar Live Translate con cualquier par de audífonos para recibir traducciones que, según Google, reflejan mejor el tono del hablante en más de 70 idiomas.
Para Android, Google también comenzará a desplegar un nuevo “modo escucha”. Esta función permite oír la traducción directamente por el auricular del teléfono, como si fuera una llamada, sin necesidad de audífonos. La empresa plantea que puede ser útil cuando el usuario necesita escuchar una traducción de forma rápida y privada.
Google añade que todo el audio generado por sus modelos está marcado con SynthID, una marca de agua imperceptible incorporada al resultado de audio. Según la compañía, esto busca que el contenido generado por IA siga siendo detectable y ayude a prevenir desinformación. Para más detalles, Google remite a la model card del sistema.
📬 Newsletter gratuito
Lo más relevante de tecnología y negocios digitales en español — cada día, en cinco minutos.






