VALL-E puede clonar voces a partir de un clip de audio de tres segundos

Al mantener la entonación, el acento y el estilo de la muestra original, VALL-E desarrolla una voz sintética que suena más natural que los modelos anteriores y reduce el tiempo de entrenamiento.

Con estas propiedades, el modelo puede sintetizar cualquier frase a partir de tres segundos de un discurso captado a través de una conversación telefónica, un podcast o en persona. Una de sus aplicaciones podría ser “pedir dinero” haciéndose pasar por un político, un actor o un familiar.

Microsoft afirma que sus modelos de habla sintética suenan ahora tan reales que es difícil distinguirlos.

La herramienta se creó introduciendo muchos datos en el sistema, sobre todo de DALL-E 2 y GPT-3. El modelo se entrenó con 60.000 horas de conversación, en su mayoría procedentes de grabaciones de aplicaciones para Teams.

Sólo se han publicado archivos de audio de muestra realizados con VALL-E. Tampoco está claro si VALL-E será lanzado comercialmente por Microsoft.

El modelo permite a los usuarios hacer más con menos datos, lo que resulta crítico para las empresas especializadas en sintetizar voz que no disponen de datos suficientes para obtener un mejor rendimiento.

Los expertos se muestran escépticos

El ingeniero de seguridad de Check Point Software, Muhammad Yahya Patel, aconsejó precaución a la hora de utilizar una nueva tecnología como VALL-E. “Aunque tiene sus virtudes, la nueva tecnología de texto a voz VALL-E de Microsoft podría tener algunas consecuencias graves para la ciberseguridad a medida que madura y se integra en nuestra vida cotidiana. Si algo hemos aprendido del año pasado es que los estafadores utilizarán cualquier medio para engañar a las víctimas desprevenidas y hacerles entregar sus contraseñas o credenciales bancarias. Los actores de las amenazas utilizan el vishing [llamadas telefónicas fraudulentas] debido a sus elevadas tasas de éxito”.

Yahya Patel sugirió que la nueva tecnología podría permitir a los estafadores imitar a seres queridos y mejorar así su estrategia. “Esto haría más difícil distinguir entre una petición fidedigna y otra procedente de un ciberdelincuente malintencionado. Del mismo modo, como muchos bancos utilizan ahora la autenticación por voz para autorizar las transacciones, es fácil ver cómo un agente de amenazas podría dirigirse a un individuo y obtener acceso a una cuenta con muy poco esfuerzo. Es crucial comprender las posibilidades que tienen los piratas informáticos de utilizar las nuevas tecnologías y tomar medidas antes de que sea demasiado tarde”.

La suplantación de identidad podría permitir a un ciberdelincuente entrar en bancos o sistemas de seguridad que emplean huellas vocales como contraseñas, aunque muchos de estos sistemas pueden distinguir la diferencia. También podría utilizarse en un esquema de phishing para tomar una breve muestra de voz de una llamada telefónica y generar un nuevo modelo de voz que facilite la obtención de una contraseña, por ejemplo, imitando al director financiero de una empresa.

Más información en el sitio de VALL-E.