DeepArts-Text2Audio

Descripción

El proyecto DeepArts-Text2Audio investiga modelos generativos profundos en el ámbito de las industrias culturales y creativas mediante el desarrollo de herramientas que ayuden a la automatización de la generación de nuevo contenido audiovisual y ayuda a la exploración de contenido creativo. Para ello se ha desarollado implementaciones propietarias modelos generativos adversarios para transformación entre dominios con variaciones arquitecturales adaptadas al dominio correspondiente.

En este demostrador en particular se ha implementado una red generativa adversaria (GAN) condicionada con descripción de categorías defnidas mediante texto, (por ejemplo batería, trompeta, perro, gato,…). Este tipo de modelos podría ayudar a la ambientación sonora de pasajes de texto o sonificación de imagenes/videos.

Arquitectura

Modulo de codificación de texto (embedding word2vec) combinado con red generativa advesaria (cGAN) progressiva que genera espectrogramas (audio) en alta resolución.

Arquitectura

Resultados

Se ha entrenado el model text2audio con varios datasets de audio etiquetados tales como FSD50K o AudioSet. A continuación se pueden visualizar algunos de los espectrogramas sintéticos generados. Se pueden escuchar en el PPT de demostración.

Uso

Ambientación automática de audio libros. Sonificacion automática de imágenes y videos. Creación de nuevos sonidos (morphing sonoro).

Web

Más información en https://

Documentación

Escuchar resultados de audio sintéticos dentro del PPT.

https://eurecatcloud.sharepoint.com/:p:/r/sites/ai4ES/Shared%20Documents/General/Activitat%202.%20Excel.lencia/REPOSITORI%20demostradors/OT1-DeepArts-Text2Audio/AI4ES-OT1-DeepArts-Text2Audio.pptx?d=wcb3021b306e247a19557f685d416fa7e&csf=1&web=1&e=bagigf