Sora, lo último de OpenAI para generar vídeos por inteligencia artificial

Inteligencia Artificial

VALORACIÓN DEL ARTÍCULO:

 5/5

La IA Generativa vuelve a dar un paso más impulsada por la empresa que ha protagonizado el gran boom de esta tecnología. OpenAI acaba de dar a conocer Sora, que se presenta como la nueva solución de esta entidad para generar vídeos siguiendo las instrucciones de los usuarios.

A priori, uno puede pensar que los vídeos que se generan desde Sora pueden pecar de detalles poco realistas o ser exagerados en la disposición de elementos futurísticos en las imágenes. Eso ya lo hemos visto en otras aplicaciones que generaban fotografías que se pasaban de frenada. Sin embargo, el caso de Sora es distinto porque sus resultados simulan muy bien el mundo físico, siendo difícil distinguir ya un vídeo creado por una persona que otro creado por una máquina.

Sora: vídeos que simulan el mundo real

El objetivo principal del modelo desarrollado por la entidad de Sam Altman es entender y simular el mundo físico en movimiento para entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción del mundo real. Sora puede generar videos de hasta un minuto de duración manteniendo la calidad visual y la fidelidad a las instrucciones del usuario.

Por lo que hemos podido ver, la presentación de Sora incluye varios ejemplos de instrucciones de texto proporcionadas al modelo para generar videos. Estos ejemplos incluyen escenas como una mujer elegante caminando por las calles de Tokio, mamuts lanudos caminando por un prado nevado, una película de aventuras de un hombre espacial de 30 años, una vista de drones de olas chocando contra acantilados en Big Sur, una escena animada de un monstruo de peluche al lado de una vela roja, un mundo de arrecifes de coral en papel, un primer plano de una paloma coronada de Victoria, dos barcos piratas luchando en una taza de café, y un hombre joven sentado en una nube en el cielo leyendo un libro, entre otros.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI (@OpenAI) February 15, 2024

Debilidades de un modelo que no deja indiferente a nadie

La misma OpenAI mantiene que Sora comparte tanto fortalezas como puntos débiles. Señalan desde la organización que el modelo puede tener dificultades para simular con precisión la física de una escena compleja y puede no entender instancias específicas de causa y efecto.

Por ejemplo, una persona podría morder una galleta, pero después la galleta podría no tener una marca de mordida. Además, el modelo puede confundir detalles espaciales de una instrucción y puede tener dificultades con descripciones precisas de eventos que ocurren con el tiempo.

Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB

— OpenAI (@OpenAI) February 15, 2024

¿Hay peligro de manipulación?

No lo destacan como debilidad, aunque habrá que prestar atención hasta qué punto esta herramienta puede ser un arma perfecta para la manipulación o para crear contenido de sesgo, por ejemplo.

En este sentido, los responsables de Sora detallan que han estado trabajando en medidas de seguridad importantes durante el desarrollo de la herramienta. Estas acciones incluyen pruebas adversariales realizadas por expertos en áreas como desinformación, contenido odioso y sesgo, así como el desarrollo de herramientas para detectar contenido engañoso y el compromiso con responsables políticos, educadores y artistas para comprender sus preocupaciones y encontrar casos de uso positivos para esta nueva tecnología.

A nivel técnico, Sora es un modelo de difusión capaz de generar videos mediante la eliminación gradual de ruido estático a lo largo de muchos pasos.

Sora se basa en investigaciones pasadas en modelos DALL·E y GPT. Utiliza la técnica de recaptación de DALL·E 3, que implica generar subtítulos altamente descriptivos para los datos de entrenamiento visual. Como resultado, el modelo puede seguir las instrucciones de texto del usuario en el video generado de manera más fiel.

Además de poder generar un video solo a partir de instrucciones de texto, el modelo puede tomar una imagen fija existente y generar un video a partir de ella, animando el contenido de la imagen con precisión y atención al detalle. El modelo también puede tomar un video existente y extenderlo o completar fotogramas faltantes. (Todos los detalles técnicos se pueden leer aquí).

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq

— OpenAI (@OpenAI) February 15, 2024

TAMBIÉN TE INTERESA

Otra vez que nos deja en shock: se presenta el Nothing Phone (3)

Siempre causa mucha expectativa el lanzamiento de productos por parte de quien suele hacer las cosas diferentes. Y ese alguien en la industria de los smartphones es Nothing. Tecnonautas siempre ha seguido muy de cerca todo lo que ha salido de esta firma, simplemente por funcionar y por ser diferente al resto. Y ahora llega

Inteligencia Artificial Generativa y deporte: una relación que va tomando forma…

El deporte, tradicionalmente anclado en la emoción del directo en la televisión en directo en los estadios, está entrando en una nueva era digital, profundamente influenciada por la inteligencia artificial (IA). Inteligencia Artificial Generativa y deporte están yendo de la mano y es la relación del momento para las generaciones jóvenes. Así lo concluye el

Vivo X200 FE: fuera caretas con esta nueva gama alta

La marca vivo, siempre muy identificada con móviles accesibles, se quita la carea para presentar el nuevo vivo X200 FE, un dispositivo que busca conquistar a los usuarios que quieren rendimiento premium sin renunciar a la comodidad. Con una cámara desarrollada junto a ZEISS, batería de larga duración, una pantalla de alto nivel y un

El reloj perfecto para running: un corredora profesional habla sobre HUAWEI WATCH FIT 4 Pro

El acto de correr ha dejado de ser simplemente un ejercicio físico para convertirse en una forma de vida, una declaración de intenciones y una vía hacia el bienestar integral. Y es en ese camino donde la tecnología ha encontrado su lugar como aliada natural. Huawei, fiel a su filosofía de combinar rendimiento y estilo,

La cámara AOV PT: un motivo para irse tranquilo de vacaciones

El verano es sinónimo de descanso, desconexión y viajes. Pero también de preocupación y seguro que las siglas de la cámara AOV PT ayudan a combatir ese sentimiento. Casas vacías, negocios con menos actividad y propiedades que quedan fuera del radar diario se convierten en un blanco fácil para robos o actos vandálicos. En este

Wimbledon pasa por el aro de la IA gracias a la introducción de Match Chat en los partidos

Wimbledon es, quizás, el torneo de tenis más legendario y tradicional del circuito profesional. En este Grand Slam, celebrado en Londres, las costumbres se respetan por encima de todo. El dress code de los participantes (todos de blanco), el césped y su corte, las fresas como alimento principal para los asistentes y un sinfín de