Generación de vídeos con inteligencia artificial

“Luces, cámara… ¡algoritmos!”

Aunque en posts anteriores he tratado el tema del vídeo generado por IA (o alguna de sus herramientas, como Sora) o de la multimodalidad de los sistemas IA, es el primer post en el que entro en este tema con cierto detalle, a petición de un amigo (que ya sabe quién es).

El mundo de la creación audiovisual está a punto de experimentar una transformación radical gracias a la inteligencia artificial. Las nuevas herramientas empiezan a permitir (aunque todavía con muchas limitaciones) generar contenido visual de alta calidad sin necesidad de más recursos que un ordenador y conocimientos de técnicas de prompting, democratizando la producción multimedia. Cineastas independientes y grandes estudios exploran estas tecnologías para crear efectos especiales, animar personajes y hasta generar escenas completas.

Sin embargo, esta tecnología no está exenta de riesgos. La facilidad para crear deepfakes plantea serias preocupaciones sobre su uso para la desinformación y el fraude (por ejemplo, como se indica en este artículo publicado por la CNN). Además, surgen debates sobre derechos de autor y el futuro del empleo en la industria. Mientras gobiernos y empresas luchan por establecer marcos regulatorios, la carrera tecnológica continúa a un ritmo vertiginoso, dejando más preguntas que respuestas sobre el futuro de la creación audiovisual.

El referente: Sora de OpenAI

Sora es una nueva herramienta de inteligencia artificial desarrollada por OpenAI (empresa creadora de ChatGPT y líder, de facto, en el mundo de la inteligencia artificial generativa) capaz de generar videos a partir de descripciones textuales. Utilizando deep learning y redes neuronales, Sora se ha entrenado con una enorme cantidad de videos y descripciones para crear contenido audiovisual nuevo. Este sistema logra resultados que van desde lo cotidiano hasta lo fantástico. Aunque todavía no está disponible para el público, los ejemplos mostrados por la compañía han generado tanto entusiasmo como debate.

Aunque no está disponible para el público general, ya han aparecido vídeos creados con esta herramienta.

The Origin of Toys’R’US (teaser – YouTube)
The Origin of Toys’R’US (vídeo completo en la web de la Toys’R’US)

Características principales

Funciona como un modelo de lenguaje de texto a video.
Crea escenas complejas con personajes interactuando de manera realista.
Puede generar mundos nuevos y hacer interacciones con el mundo real.

Funcionamiento

Los usuarios proporcionan un “prompt” o descripción textual.
Sora interpreta la solicitud y crea un video basado en esa información.
Utiliza su entrenamiento e inferencia para generar contenido relevante y preciso.

Estado actual y disponibilidad

No hay fecha oficial de lanzamiento.
Se encuentra en fases tempranas de prueba.
OpenAI la ha anunciado para mostrar avances y posiblemente atraer financiación.

Las promesas de los grandes: Stable Video Diffusion y Lumiere

Stable Video Diffusion

Stability AI, una empresa emergente con sede en Londres, irrumpió en la escena tecnológica en 2022 con el lanzamiento de Stable Diffusion, una herramienta de inteligencia artificial para la generación de imágenes que rápidamente captó la atención del mundo digital. Fundada por Emad Mostaque, Stability AI se distingue por su enfoque en el desarrollo de IA de código abierto, buscando democratizar el acceso a tecnologías avanzadas de aprendizaje automático.

Stable Diffusion, su producto estrella, utiliza modelos de difusión para crear imágenes detalladas a partir de descripciones textuales. A diferencia de otras soluciones similares, esta herramienta se caracteriza por su capacidad para funcionar en ordenadores personales con recursos limitados, lo que la ha hecho accesible a un amplio espectro de usuarios, desde artistas y diseñadores hasta entusiastas de la tecnología.

Desde su lanzamiento, Stable Diffusion ha evolucionado rápidamente, ampliando sus capacidades más allá de la mera generación de imágenes para incluir funciones como la modificación de imágenes existentes, inpainting y outpainting. Esta innovación ha situado a Stability AI en el centro de los debates sobre el futuro del arte digital, los derechos de autor en la era de la IA y el impacto de estas tecnologías en las industrias creativas tradicionales.

Stable Video Diffusion expande las capacidades de su predecesora al ámbito del vídeo, permitiendo la creación de secuencias animadas a partir de imágenes fijas o descripciones textuales, de manera análoga a Sora.

Características principales

https://www.stablevideo.com
Ofrece cuarenta créditos para generar vídeos de forma gratuita. Crea vídeos de cuatro segundos en con alto nivel de realismo.
Genera una imagen como punto de partida del vídeo (a elegir entre cuatro creadas a partir del prompt).

Lumiere

Google, el gigante tecnológico por todos conocido (que quizá deje de ser tan ‘gigantesco’, dados sus problemas con la justicia, como publica The Guardian), también quiere su parte del pastel en el campo de la generación de vídeo con inteligencia artificial. Lumiere, su innovador sistema, se basa en una arquitectura de difusión espacio-temporal, que permite generar clips de vídeo cortos pero altamente detallados a partir de descripciones textuales. A diferencia de otros sistemas que generan fotogramas individuales y luego los unen, Lumiere crea el vídeo como una unidad coherente, lo que resulta en movimientos más fluidos y realistas.

El sistema es capaz de generar una amplia variedad de contenidos, desde escenas cotidianas hasta secuencias fantásticas, e incluso puede animar imágenes fijas o extender clips de vídeo existentes. Aunque aún se encuentra en fase de investigación, los primeros resultados mostrados por Google han impresionado a la comunidad tecnológica por su calidad y versatilidad.

Características principales

https://lumiere-video.github.io (en su página se encuentran ejemplos de clips breves).
Se encuentra en fase de desarrollo y no está disponible para el público general.

Otras alternativas

Aparte de los sistemas anteriores, otras empresas están desarrollando sus propias soluciones, cada vez a mayor velocidad. A continuación incluyo un resumen rápido de algunas alternativas (si deseáis que figure alguna más, indicádmelo).

Runway

Características Principales

Ofrece contenido generativo de alta calidad.
Incluye sincronización labial precisa y un pincel de movimiento.
Gen-3 permite crear videos de hasta diez segundos.

Ventajas

Herramientas de colaboración y características adicionales como la mejora de imágenes y texto a imagen.
Plan gratuito con 125 créditos; plan estándar a $15 al mes.

Luma Labs Dream Machine

Características principales

https://runwayml.com/
Realismo y seguimiento natural del movimiento.
Generación inicial de videos de 5 segundos.

Ventajas

Sistema de generación por créditos que facilita el control del gasto.
Plan gratuito con 30 generaciones al mes; plan estándar a $30 al mes.

Kling

Características principales

https://kling.kuaishou.com/en
Secuencias de video más largas y captación precisa de movimientos humanos y animales.

Ventajas

Interfaz sencilla y fácil de usar.
Gratuito con 66 créditos diarios; membresías desde $10 al mes.

Pika Labs

Características principales

https://pika.art/
Generación de video desde imágenes, texto u otros videos.
Sincronización labial y control fino del movimiento.

Ventajas

Plan gratuito con 300 créditos; plan estándar a $10 al mes.

FinalFrame

Características principales

Generación continua basada en el último fotograma del video previo.

Ventajas

Crédito de 20 por $2.99 mensuales.

Haiper

Características principales

https://finalframe.ai/
Modelo propio que sigue instrucciones de texto con precisión.

Ventajas

Plan gratuito con 10 creaciones diarias y marca de agua; plan Pro a $30 al mes.

LTX Studio

Características principales

https://ltx.studio/
Plataforma completa de contenido generativo, permite crear videos multiescena.

Ventajas

Plan gratuito con 1 hora de generación mensual; uso comercial por $175 al mes.

Conclusión

Cada una de estas herramientas ofrece características únicas que pueden ser útiles según tus necesidades específicas de creación de video con IA. Mientras Sora disponible, estas alternativas proporcionan opciones valiosas para experimentar y crear contenido innovador.

Pruebas

El prompt que se ha alimentado a las diferentes plataformas está en inglés debido a que la comprensión de estos sistemas es notablemente superior en este idioma.

“A lonely person on a rooftop at sunset, pensively gazing towards the horizon. Flashback to the previous day, where two people walk in silence along a path on the outskirts of the city. Back in the present, the person on the rooftop observes the dawn with an expression of hope and acceptance.”

Stable Video Diffusion (4s)
Runway (4s)
Luma Labs Dream Machine (4s)
Pika Labs (4s)
Haiper (4s)
LTX Studio (45s)

Como se puede ver, LTX Studio destaca en duración sobre todos los demás. También lo hace en que la plataforma genera un vídeo multiescena a partir del prompt (que no se ha modificado, el resultado aparece directamente, voz en off incluida, a partir del texto incluido más arriba).

No he podido hacer pruebas en las siguientes plataformas:

Kling: he sido incapaz de probarlo, ya que requiere estar dado de alta con un teléfono chino.
FinalFrame: requiere comprar créditos para realizar las pruebas.