OpenAI pokreće novi model video generacije koji se zove Sora. Kompanija kaže da Sora „može da kreira realistične i maštovite scene iz tekstualnih uputstava“. Model text-to-video omogućava korisnicima da kreiraju fotorealistične video-zapise dužine do jednog minuta na osnovu upita koje su napisali.
Sora je u stanju da kreira „složene scene sa više likova, specifičnim pokretima i tačnim detaljima subjekta i pozadine“, navodi se u uvodnom blogu OpenAI-a. Kompanija takođe napominje da model može da razume kako objekti „postoje u fizičkom svetu“, kao i da „precizno tumači rekvizite i generiše ubedljive likove koji izražavaju emocije“.
Model takođe može da generiše video na osnovu nepokretne slike, kao i da popuni okvire koji nedostaju u postojećem videu ili da ga proširi.
Demo snimci, koje je generisala Sora uključene u post na blogu OpenAI-a, uključuju scenu iz vazduha Kalifornije tokom zlatne groznice. Video izgleda kao da je snimljen iz unutrašnjosti voza u Tokiju.
OpenAI je izjavio da se model „možda bori sa preciznom simulacijom fizike složene scene“, ali rezultati su generalno prilično impresivni.
Konkurecija OpenAI-u
Pre nekoliko godina, generatori teksta u sliku kao što je Midjourney bili su na samom vrhu zbog sposobnosti modela da pretvara reči u slike. Ali nedavno, video je počeo da se poboljšava izuzetnim tempom: kompanije kao što su Runway i Pika su pokazale impresivne sopstvene modele teksta u video, a Gugl-ov Lumiere takođe je jedan od primarnih konkurenata OpenAI-a u ovom prostoru. Slično kao kod Sore, Lumiere korisnicima daje alate za pretvaranje teksta u video i takođe im omogućava da kreiraju video-zapise od nepokretne slike, piše The Verge.
Sora je trenutno dostupna samo tzv. crvenim timovima koji procenjuju model za potencijalne štete i rizike. OpenAI takođe nudi pristup nekim vizuelnim umetnicima, dizajnerima i filmskim stvaraocima da dobiju povratne informacije. Napominje da postojeći model možda neće tačno da simulira fiziku složene scene i možda neće pravilno tumačiti određene slučajeve uzroka i posledice.
Ranije ovog meseca, OpenAI je najavio da dodaje vodene žigove svom alatu za pretvaranje teksta u sliku DALL-E 3, ali napominje da se oni mogu „lako ukloniti“. Kao i drugi proizvodi veštačke inteligencije, OpenAI će morati da se bori sa posledicama lažnih, AI fotorealističnih snimaka koji se pogrešno smatraju stvarnim.
Izvor: BIZLife/Kurir/Darko Mulic