Descripción
El proyecto DeepArts- Audio2Video investiga modelos generativos profundos en el ámbito de las industrias culturales y creativas mediante el desarrollo de herramientas que ayuden a la automatización de la generación de nuevo contenido audiovisual y ayuda a la exploración de contenido creativo. Para ello se ha desarollado implementaciones propietarias modelos generativos adversarios para transformación entre dominios con variaciones arquitecturales adaptadas al dominio correspondiente.
En este demostrador en particular se ha implementado una red generativa adversaria (GAN) capaz de generar videos sincronizados con audio como única fuente de entrada. Esta red es capaz de regenerar videos y generalizar cambiando posteriormente con otro audio de entrada que puede ser de una naturaleza completamente distinta.
Arquitectura
Condicionada con una entrada de audio enrutada en varios puntos de manera que mejora la capacidad generativa de la red haciiendo disponible la información semántica del audio en varios puntos del flujo de las activaciones dentro de la red generativa.
Además se ha propuesto la mejora de la representación y análisis de audio mediante el escalado de una red recurrente con varias capas dilatadas y con conexión residualque permite un análisis de audio más eficiente y de largo alcance.
También se a propuesto una nueva capa de predicción de video insertada en las últimas capas del red generadora que permite actuar a nivel de la imagen para inducir en el video coherencia temporal.
Resultados
Se ha entrenado el model text2audio con varios datasets de audio etiquetados tales como FSD50K o AudioSet. A continuación se pueden visualizar algunos de los espectrogramas sintéticos generados. Se pueden escuchar en el PPT de demostración.
Uso
- Generación de nuevo contenido audio visual: Regeneración de video basado en frames. Animación de personajes o paisajes sonoros,…) Regeneración de video para doblaje cine, anuncios,… Enriquecimiento (multemdia) de grabaciones sonoras.
- Aplicaciones médicas: regeneración de frames, coherencia volumétrica,…
- Aplicaciones navegación: predicción de frames futuros, predicción de trayectorias,…
- Imagen por satélite/drones: monitorización areas, predicción de estados futuros,…
Web
Más información en https://