Stability AI lanza un servicio de IA para la creación versátil de audio

14/09/2023

Stability AI ha dado a conocer Stable Audio, una innovadora plataforma de IA diseñada para generar audio con duraciones personalizables. Entrenada en un vasto conjunto de datos, esta plataforma ofrece tres niveles de precios para adaptarse a las distintas necesidades de los usuarios, incluida una versión gratuita. La empresa recalca que “su capacidad única para admitir longitudes de audio variables la diferencia de la competencia y la posiciona como una opción ideal para generar música de fondo en podcasts y vídeos”.

Stability AI escribe en su página web que, en los últimos años, los modelos generativos basados en la difusión han hecho avanzar significativamente el campo de la IA generativa. Estos avances han permitido mejorar notablemente la calidad y la capacidad de control de las imágenes, el vídeo y el audio generados. Los modelos de difusión latente, que operan en el espacio de programación latente de un autoencoder preentrenado, ofrecen ganancias significativas tanto en el entrenamiento como en la velocidad de inferencia de los modelos de difusión.

Tradicionalmente, los modelos de difusión para audio se entrenan para producir resultados de longitud fija, a menudo como clips de 30 segundos. Esto supone una limitación a la hora de generar audio de longitudes variables, como canciones enteras. Estos modelos suelen entrenarse en bloques segmentados aleatoriamente de archivos de audio más largos, lo que da como resultado frases musicales inconexas cuando se generan secciones de una canción.

Según la empresa, Stable Audio es una innovadora arquitectura de modelo de difusión latente diseñada específicamente para audio. Este modelo está condicionado tanto por los metadatos textuales como por la información temporal del archivo de audio, lo que permite un mayor control sobre el contenido y la longitud del audio generado.

Capacidad técnica

Utilizando técnicas de muestreo por difusión de última generación, Stable Audio puede generar 95 segundos de audio estéreo a una frecuencia de muestreo de 44,1 kHz en menos de un segundo en una GPU NVIDIA A100. Esto se consigue trabajando con representaciones latentes del audio con muestreo reducido.

Arquitectura del modelo y acondicionamiento

La arquitectura de audio estable consta de varios componentes, entre ellos un autocodificador variacional (VAE) y un codificador de texto basado en CLAP. Condiciona el proceso de difusión a través de capas atencionales cruzadas utilizando características textuales y temporales, lo que hace que la generación sea más consciente del contexto. Para más detalles, consulte este enlace.

Stable Audio, desarrollado por el laboratorio de investigación de audio generativo de Stability AI, Harmonai, se basa en un conjunto de datos de más de 800.000 archivos de audio y más de 19.500 horas de audio.

Amazon se une a la IA generativa con tres anuncios

Ex expertos de Google crean redes neuronales inspiradas en la naturaleza

Enfrentando los desafíos informáticos y de sostenibilidad de la IA generativa

📬 Newsletter gratuito

Stability AI lanza un servicio de IA para la creación versátil de audio

Últimos artículos

ChatGPT vuelve a WhatsApp en Europa tras las medidas provisionales contra Meta

Silverfort presenta un caso de defensa frente a ataques autónomos de IA

Editoriales acusan a Google de entrenar Gemini con millones de obras sin autorización

Nueva beta de Spotify permite pedir música y consultar el historial mediante lenguaje natural

Globant y Egg ponen el foco en las personas para ampliar la adopción empresarial de IA en Argentina

Qualys e Integrity360 acuerdan distribuir servicios de gestión de riesgos en la península ibérica

En México, el futuro de la salud no está en más tecnología, sino en conectarla

El mayor ecosistema digital jamás construido y sus lecciones de ciberseguridad

México multa con 42,8 millones de pesos a la Federación de Fútbol por datos biométricos