La inteligencia artificial, al igual que otras tecnologías disruptivas como la genética o la energía nuclear, tiene dos caras: una positiva y otra negativa. Es indudable la capacidad de la IA para acelerar la investigación científica, por ejemplo en el descubrimiento de fármacos. Al igual que su capacidad para manipular la opinión pública. Y este es el caso de Vasa-1, la innovación del equipo de investigadores en inteligencia artificial de Microsoft Research Asia, una IA que da vida y audio al retrato de una persona.
Según un estudio VASA-1 es capaz de convertir una imagen fija de una persona y una pista de audio en una animación que retrata con precisión al individuo hablando o cantando la pista de audio con expresiones faciales que son casi indistinguibles de un video.
Microsoft acaba de lanzar VASA-1.
Esta IA puede hacer que una sola imagen cante y hable expresivamente a partir de una referencia de audio. Similar a EMO de Alibaba
10 ejemplos salvajes:
1. Mona Lisa rapeando a Paparazzi pic.twitter.com/LSGF3mMVnD
-Min Choi (@minchoi) 18 de abril de 2024
El equipo de investigación buscó animar imágenes fijas de conversaciones y cantos, utilizando cualquier pista de audio de apoyo proporcionada, y al mismo tiempo mostrando expresiones faciales creíbles. Claramente, lo lograron con el desarrollo de VASA-1, un sistema de inteligencia artificial que convierte imágenes estáticas, ya sean capturadas por una cámara, dibujada o pintada, en lo que describen como animaciones «exquisitamente sincronizadas».
El grupo ha demostrado la eficacia de su sistema publicando vídeos cortos de los resultados de sus pruebas. En uno, una versión de dibujos animados del Mona Lisa interpreta una canción de rap; en otro, una fotografía de una mujer se ha transformado en un espectáculo de canto, y en otro, un dibujo de un hombre dando un discurso.
El primer vídeo generado por IA que parece súper real
Microsoft Research anunció VASA-1.
Toma una única fotografía de retrato y audio de voz y produce un vídeo hiperrealista de caras parlantes con sincronización precisa de audio de labios, comportamiento facial realista y movimientos naturalistas de la cabeza… pic.twitter.com/6bxd4mEgFR
– Bindu Reddy (@bindureddy) 17 de abril de 2024
En cada una de las animaciones, las expresiones faciales cambian junto con las palabras de una manera que enfatiza lo que se dice. Los investigadores también señalan que, a pesar de la naturaleza realista de los vídeos, una inspección más cercana puede revelar fallas y evidencia de que han sido generados artificialmente.
Presentamos: VASA-1 de Microsoft Research.
TL;DR: foto de retrato único + audio de voz = video de cara parlante hiperrealista con sincronización precisa de audio de labios, comportamiento facial realista y movimientos naturalistas de la cabeza, generados en tiempo real.
Toca para ver todos los vídeos. pic.twitter.com/pPC6qZOBW2
—Eduardo Borges (@duborges) 18 de abril de 2024
El equipo de investigación logró sus resultados entrenando su aplicación con miles de imágenes con una amplia variedad de expresiones faciales. También señalan que el sistema produce actualmente imágenes de 512 por 512 píxeles a 45 fotogramas por segundo. Además, tomó un promedio de dos minutos producir los videos. utilizando una GPU Nvidia RTX 4090 de escritorio, es decir, la tecnología disponible.
El equipo de investigación sugiere que VASA-1 podría usarse para generar avatares extremadamente realistas para juegos o simulaciones. Al mismo tiempo, Reconocen el potencial de abuso y, por lo tanto, no ponen el sistema a disposición para uso general..