Categorías
Inteligencia Artifical

Open AI Sora crear videos con Inteligencia Artificial y prompts

Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.

Este video fue creado por Open AI usando Sora, su último modelo, que puede crear videos usando prompts de texto pero, también, crear videos usando videos como base para crear variaciones en estilo, cinematografía y cualquier otra variable que puedas elegir o crear simplemente describiendo el cambio que querés.

We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.

Research: Video generation models as world simulators

Esto es realmente increíble, porque muestra que entre todo lo que se deja de lado al pensar “un modelo de texto a video” incluye el editar videos creando variaciones del modelo base, crear universos simulados y, sobre todo, que escalar creación de videos tiene mil derivadas que pueden cambiar varias industrias.

Sora y pensamientos sueltos sobre la creación de video en escala

(1:Personalización a escala) Lo primero que me viene a la cabeza es cómo esta herramienta facilita la personalización de videos como ha sucedido con la personalización de textos en Internet; el ejemplo básico: pasar del “Bienvenido a mi sitio” a “Hola Mariano!”

At the start of the year, every single one of the roughly 100,000 people working for advertising giant Publicis received a video message from the chief executive thanking them personally, by name and in their first language, for their hard work.

How AI is transforming the business of advertising (Financial Times)

Y eso fue un experimento que llevó tiempo pero que hoy, sin acceso a SORA, ya fue implementado en la India por Cadbury, que contrató a la estrella de Bollywood Shah Rukh Khan para crear un modelo con AI donde cualquier dueño de un kiosco, cliente de Cadbury, escribía el nombre de su tienda y la estrella aparecía en un video diciendo nombre de la tienda y dirección con los productos a comprar… puede parecer más o menos sofisticado pero esto no se podía hacer.

Ahora con Sora usás el video como base (modelo original de Shah Ruck Khan) y el texto editado por los usuarios con las direcciones y nombres para que se cree la variación… literalmente: cero hora de estudio.

(2:Creacion de mundos a escala) En el paper de SORA hay algo que me llama la atención y pocos están mencionando: al usar video y variaciones y “transiciones”, los creadores de mundos virtuales tendrían herramientas nuevas donde escalar:

  • Call of Duty: podrían dejar modelos creando mundos infinitos sin necesidad de tener que codear más que las reglas.
  • Asphalt: el usuario podría simplemente poner el nombre de su ciudad y ver cómo se recrea ese mundo pero en forma de circuito callejero.
  • Alien Dark Descent: podrías dejar al modelo crear los mundos… infinitas veces.

Antes de la crítica, estas son ideas sueltas apenas mirando los papers, pero debe haber escenarios donde esto ya se está probando… especialmente en el mercado creativo.

Prompt: The camera rotates around a large stack of vintage televisions all showing different programs — 1950s sci-fi movies, horror movies, news, static, a 1970s sitcom, etc, set inside a large New York museum gallery.more

SORA y la sorpresa de sus resultados…

Pero hay algo que me encanta de todos los modelos de SORA en OpenAI y es cómo incluso sus investigadores van sorprendiéndose de los resultados que se están generando.

Por un lado, es super interesante que se haya creado un estilo cinematográfico bastante claro donde hay cambios de tomas, mucho movimiento en slow-motion y donde todavía hay errores comunes que se van a ir resolviendo.

Prompt: A close up view of a glass sphere that has a zen garden within it. There is a small dwarf in the sphere who is raking the zen garden and creating patterns in the sand.

Por otro lado, que el modelo se haya hecho público dándole acceso primero a “red teamers” o sea equipos que buscan vulnerabilidades o simplemente entender debilidades que rompan las barreras de seguridad (especialmente en cuanto a usar caras de personas para hacer deepfakes, o ser usado en CSAM o en creación de contenido político en año de elecciones en USA) lo que muestra que hay cosas que todavía hay que aprender de estos modelos donde las “cajas negras” son una realidad.

Una respuesta en “Open AI Sora crear videos con Inteligencia Artificial y prompts”

Simplemente impresionante. La generación de imágenes, aunque también sorprendente, no me impactó tanto, pero esto es de un nivel de maestría excepcional. Sólo estamos tocando la superficie de la IA y ya vemos cosas asombrosas. :O

Los comentarios están cerrados.