Stability AI lanza un servicio de IA para la creación versátil de audio

Stability AI ha presentado Stable Audio, un servicio de IA especializado en la producción de audio de distinta duración. Disponible en tres versiones, incluida una gratuita, el servicio permite crear música de fondo para podcasts, vídeos y demás.

Stability AI ha dado a conocer Stable Audio, una innovadora plataforma de IA diseñada para generar audio con duraciones personalizables. Entrenada en un vasto conjunto de datos, esta plataforma ofrece tres niveles de precios para adaptarse a las distintas necesidades de los usuarios, incluida una versión gratuita. La empresa recalca que “su capacidad única para admitir longitudes de audio variables la diferencia de la competencia y la posiciona como una opción ideal para generar música de fondo en podcasts y vídeos”.

Stability AI escribe en su página web que, en los últimos años, los modelos generativos basados en la difusión han hecho avanzar significativamente el campo de la IA generativa. Estos avances han permitido mejorar notablemente la calidad y la capacidad de control de las imágenes, el vídeo y el audio generados. Los modelos de difusión latente, que operan en el espacio de programación latente de un autoencoder preentrenado, ofrecen ganancias significativas tanto en el entrenamiento como en la velocidad de inferencia de los modelos de difusión.

Tradicionalmente, los modelos de difusión para audio se entrenan para producir resultados de longitud fija, a menudo como clips de 30 segundos. Esto supone una limitación a la hora de generar audio de longitudes variables, como canciones enteras. Estos modelos suelen entrenarse en bloques segmentados aleatoriamente de archivos de audio más largos, lo que da como resultado frases musicales inconexas cuando se generan secciones de una canción.

Según la empresa, Stable Audio es una innovadora arquitectura de modelo de difusión latente diseñada específicamente para audio. Este modelo está condicionado tanto por los metadatos textuales como por la información temporal del archivo de audio, lo que permite un mayor control sobre el contenido y la longitud del audio generado.

Capacidad técnica

Utilizando técnicas de muestreo por difusión de última generación, Stable Audio puede generar 95 segundos de audio estéreo a una frecuencia de muestreo de 44,1 kHz en menos de un segundo en una GPU NVIDIA A100. Esto se consigue trabajando con representaciones latentes del audio con muestreo reducido.

Arquitectura del modelo y acondicionamiento

La arquitectura de audio estable consta de varios componentes, entre ellos un autocodificador variacional (VAE) y un codificador de texto basado en CLAP. Condiciona el proceso de difusión a través de capas atencionales cruzadas utilizando características textuales y temporales, lo que hace que la generación sea más consciente del contexto. Para más detalles, consulte  este enlace.

Stable Audio, desarrollado por el laboratorio de investigación de audio generativo de Stability AI, Harmonai, se basa en un conjunto de datos de más de 800.000 archivos de audio y más de 19.500 horas de audio.


Únase a la conversación

Contacto | Diario TI es una publicación de MPA Publishing International Ltd., Reino Unido. © Copyright 1997-2022