Na Google I/O 2024, Google je najavio Veo, novi model AI video sinteze koji može da kreira HD video zapise od teksta, slike ili video upita, slično OpenAI-ovoj Sori. Može da generiše 1080p video zapise koji traju više od jednog minuta i da uređuje video zapise na osnovu pisanih uputstava, ali još uvek nije pušten za široku upotrebu.

Veo navodno uključuje mogućnost uređivanja postojećih video zapisa pomoću tekstualnih komandi, održavanja vizuelne konzistentnosti u okvirima i generisanja video sekvenci koje traju do i duže od 60 sekundi iz jednog odziva ili niza upita koji formiraju naraciju. Kompanija kaže da može da generiše detaljne scene i primeni filmske efekte kao što su vremenski intervali, snimci iz vazduha i različiti vizuelni stilovi.

Od lansiranja DALL-E 2 u aprilu 2022. godine, videli smo paradu novih modela sinteze slike i video sinteze koji imaju za cilj da omoguće svakome ko može da unese pisani opis da napravi detaljnu sliku ili video. Iako nijedna tehnologija nije u potpunosti usavršena, i AI generatori slika i video-generatori stalno postaju sve sposobniji.

Za sada verujemo da OpenAI Sora video generator predstavlja najbolju AI video sintezu koju industrija može da ponudi. Međutim, do sada OpenAI nije obezbedio opšti pristup alatu, umesto toga, ograničio je njegovu upotrebu na odabranu grupu testera.

shutterstock-sora-3.jpg
Foto: Shutterstock

Sada se na prvi pogled čini da je Google-ov Veo sposoban za video generisanje podviga sličnih Sori. Nije moguće još isprobati, tako da možemo samo da pogledamo demonstracione video snimke koje je kompanija postavila na svojoj web stranici. Što znači da svako treba da prihvati Google tvrdnje sa velikom rezervom, jer rezultati generacije možda nisu tipični.

Veovi primeri video snimaka uključuju kauboja koji jaše konja, ćevape koji se peku na roštilju, otvaranje suncokreta i još mnogo toga. Upadljivo su odsutni bilo kakvi detaljni prikazi ljudi, što je istorijski bilo teško za AI slike i video modele da se generišu bez očiglednih deformacija.

Google kaže da se Veo nadograđuje na prethodne modele video-generacije kompanije, uključujući Generative Query Network (GKN), DVD-GAN, Imagen-Video, Phenaki, VALT, VideoPoet i Lumiere. Da bi se poboljšao kvalitet i efikasnost, Veo-ovi podaci o obuci uključuju detaljnije video titlove i koriste komprimovane "latentne" video reprezentacije. Da bi poboljšao Veo kvalitet video generisanja, Google je uključio detaljnije natpise za video snimke koji se koriste za obuku Vea, omogućavajući AI da preciznije tumači upite.

Iako demo na prvi pogled izgledaju impresivno, Google priznaje da je AI generisanje video zapisa teško. „Održavanje vizuelne konzistentnosti može biti izazov za modele generisanja video zapisa“, piše kompanija. „Likovi, objekti ili čak cele scene mogu neočekivano da trepere, skaču ili se menjaju između kadrova, ometajući doživljaj gledanja.“

Google je pokušao da ublaži te nedostatke „najsavremenijim transformatorima latentne difuzije“, što je u suštini besmislen marketinški razgovor bez specifičnosti.

U početku, Veo će biti dostupan odabranim kreatorima preko VideoFKS-a, novog eksperimentalnog alata dostupnog na Google-ovoj web stranici AI Test Kitchen, labs.google. Kreatori se mogu pridružiti listi čekanja za VideoFKS da bi potencijalno dobili pristup Veo funkcijama u narednim nedeljama. Google planira da u budućnosti integriše neke od Veovih mogućnosti u YouTube Shorts i druge proizvode.

untitled1recoveredrecoveredrecoveredrecovered.jpg
Foto: Shutterstock

Još nema reči o tome odakle je Google dobio podatke o obuci za Veo (ako smo morali da nagađamo, verovatno je umešan YouTube). Ali Google navodi da zauzima „odgovoran“ pristup sa Veom. Prema kompaniji, „video snimci koje je kreirao Veo imaju vodeni žig pomoću SinthID-a, najsavremenijeg alata za obeležavanje vodenog žiga i identifikaciju sadržaja generisanog veštačkom inteligencijom, i prolaze kroz sigurnosne filtere i procese provere pamćenja koji pomažu u smanjenju rizika privatnosti, autorskih prava i pristrasnosti".