OpenAI presenta Sora, modello d'IA che crea video da un testo

OpenAI presenta Sora, modello d’IA che crea video da un testo

frame da video con New York City sommersa come Atlantide generato dall'IA OpenAI Sora

Scritto da

Simone Ziggiotto

18 Febbraio 2024

Dopo il lancio del chatbot ChatGPT e un generatore di immagini partendo da una descrizione di testo, tra gli altri suoi modelli di Intelligenza Artificiale, OpenAI presenta Sora, un nuovo modello d’IA generativa che può creare video partendo da un testo.

OpenAI, l’organizzazione specializzata nello sviluppo di modelli di intelligenza artificiale dietro a ChatGPT ma non solo, ha annunciato Sora, un nuovo modello d’IA generativa che ha la capacità di creare video con scene realistiche e fantasiose partendo da una istruzione di testo più o meno semplice. Praticamente una evoluzione di DALL-E 3, il modello d’IA di OpenAI capace di creare immagini statiche partendo da una istruzione testuale.

Secondo la relazione tecnica condivisa da OpenAI riguardo a Sora, questo modello di generazione video ha la capacità di generare video della durata massima di un minuto con una “alta fedeltà” rispetto al comando di testo iniziale. Secondo l’organizzazione, i risultati ottenuti dai test di Sora suggeriscono che:

“il ridimensionamento dei modelli di generazione video è un percorso promettente verso la costruzione di simulatori generali del mondo fisico.”

Sora ha la capacità di “generare scene complesse con più personaggi, tipi specifici di movimento“, si legge nella descrizione del modello, così come “dettagli accurati del soggetto e dello sfondo“. Il modello Sora “ha una profonda comprensione del linguaggio” ed è in grado di comprendere come le cose che l’utente ha chiesto nella descrizione di comando esistono nel mondo fisico così da generare un video quanto più realistico possibile.

Che tipo di video si possono creare con Sora di OpenAI: esempi concreti

E’ possibile guardare esempi di video generati da Sora nella pagina web all’indirizzo openai.com/sora. Tra gli esempi, davvero di alta qualità, è possibile vedere il video generato dalla seguente descrizione di comando:

“Una donna elegante cammina lungo una strada di Tokyo piena di neon caldi e luminosi e di segnaletica cittadina animata. Indossa una giacca di pelle nera, un lungo vestito rosso e stivali neri e porta una borsa nera. Indossa occhiali da sole e rossetto rosso. Cammina con sicurezza e disinvoltura. La strada è umida e riflettente, creando un effetto specchio delle luci colorate. Molti pedoni passeggiano.”

frame da video con donna a Tokyo generato dall'IA Sora di OpenAI — frame da video con donna a Tokyo generato dall’IA Sora di OpenAI – PianetaCellulare.it (credit: OpenAI)

Un altro esempio di video generato dall’IA Sora visibile nella pagina sopra menzionata proviene dalla seguente descrizione:

“Diversi giganteschi mammut lanosi si avvicinano camminando attraverso un prato innevato, la loro lunga pelliccia lanosa si muove leggermente nel vento mentre camminano, alberi coperti di neve e spettacolari montagne innevate in lontananza, la luce di metà pomeriggio con nuvole sottili e un sole alto nel cielo crea una luce calda, la visuale dal basso è straordinaria e cattura il grande mammifero peloso con una fotografia e una profondità di campo meravigliose.”

frame da video con mammut lanosi generato dall'IA OpenAI Sora — frame da video con mammut lanosi generato dall’IA OpenAI Sora – PianetaCellulare.it (credit: OpenAI)

Tra gli altri esempi che si possono vedere nella pagina qui sopra menzionata segnaliamo un trailer cinematografico con le avventure di un uomo spaziale, la vista da un drone delle onde che si infrangono contro le scogliere lungo la spiaggia di Garay Point di Big Sur. E poi ancora una scena animata di un “mostro basso e soffice inginocchiato accanto a una candela rossa che si scioglie“. E poi ancora “un mondo di carta splendidamente reso con una barriera corallina, pieno di pesci colorati e creature marine.”

frame da video con mostro peloso davanti a candela generato dall'IA OpenAI Sora — frame da video con mostro peloso davanti a candela generato dall’IA OpenAI Sora – PianetaCellulare.it (credit: OpenAI)

Sora può creare anche un “filmato storico della California durante la corsa all’oro” o il video “di una vista ravvicinata di una sfera di vetro che contiene un giardino zen al suo interno” oppure ancora il video di “un primo piano estremo dell’occhio di una donna di 24 anni che sbatte le palpebre.” o “la storia della vita di un robot in un’ambientazione cyberpunk.”.

Altri esempi comprendono la creazione di un video con la “visita di una galleria d’arte con molte bellissime opere d’arte in stili diversi.” oppure con “la bellissima e innevata città di Tokyo.” oppure ancora “un’animazione in stop motion di un fiore che cresce dal davanzale di una casa di periferia.”.

Disponibilità di Sora

OpenAI ha annunciato che Sora sta diventando disponibile per i team che si occupano di valutare danni o rischi. Inoltre, Sora sarà presto accessibile anche a selezionati artisti visivi, designer e registi. Tutti coloro che utilizzeranno Sora saranno invitati a condividere con OpenAI feedback su come migliorare il modello così da renderlo più utile per i professionisti creativi.

Infatti, OpenAI è a conoscenza del fatto che il modello attuale presenta dei punti deboli. Secondo l’organizzazione, l’attuale versione di Sora potrebbe “avere difficoltà a simulare accuratamente la fisica di una scena complessa” e “non comprendere istanze specifiche di causa ed effetto“.

Ad esempio, un biscotto potrebbe non essere rappresentato con il segno del morso dopo essere stato assaggiato da una persona. Inoltre, il modello potrebbe “confondere i dettagli spaziali di un prompt“, ad esempio confondendo sinistra e destra, e “avere difficoltà con descrizioni precise di eventi che si verificano nel tempo“.

Nota: tutte le immagini qui sopra sono create dall’intelligenza artificiale Sora di OpenAI e provengono dai video presenti nella pagina web openai.com/sora.