Najpoznatiji chatbot je upravo dobio uši: Najnovija verzija AI-a sada može da vas čuje

Shutterstock

AI chat botovi su već sposobni da „vide“ svet kroz slike i video. Ali sada je Google najavio funkcije pretvaranja zvuka u govor kao deo najnovijeg ažuriranja za Gemini Pro. U Gemini 1.5 Pro, chatbot sada može da „čuje“ audio datoteke učitane u njegov sistem, a zatim izvuče tekstualne informacije.

Kompanija je ovu LLM verziju učinila dostupnom kao javni pregled na svojoj razvojnoj platformi Vertex AI. Ovo će omogućiti većem broju korisnika fokusiranih na preduzeća da eksperimentišu sa ovom funkcijom i prošire svoju bazu nakon privatnijeg uvođenja u februaru kada je model prvi put najavljen. Ovo je prvobitno bilo ponuđeno samo ograničenoj grupi programera i poslovnih klijenata.

Google je podelio detalje o ažuriranju na svojoj Cloud Next konferenciji, koja se trenutno održava u Las Vegasu. Nakon što je Gemini Ultra LLM koji pokreće njegov Gemini Advanced chatbot nazvao najmoćnijim modelom svoje porodice Gemini, Google sada Gemini 1.5 Pro naziva svojim najsposobnijim generativnim modelom. Kompanija je dodala da je ova verzija bolja u učenju bez dodatnog podešavanja modela.

Gemini 1.5 Pro je multimodalan po tome što može da interpretira različite vrste zvuka u tekst, uključujući TV emisije, filmove, radio emisije i snimke konferencijskih poziva. Čak je i višejezičan po tome što može da obrađuje zvuk na nekoliko različitih jezika. LLM takođe može biti u mogućnosti da kreira transkripte iz video zapisa; međutim, njegov kvalitet može biti nepouzdan, kao što je naveo TechCrunch.

Shutterstock 
foto: Shutterstock

Kada je prvi put objavljen, Google je objasnio da Gemini 1.5 Pro koristi sistem tokena za obradu neobrađenih podataka. Milion tokena je jednako otprilike 700.000 reči ili 30.000 linija koda. U medijskom obliku, to je sat vremena videa ili oko 11 sati zvuka.

Bilo je nekoliko privatnih demo pregleda Gemini 1.5 Pro koji pokazuju kako LLM može da pronađe određene trenutke u video transkriptu. Na primer, entuzijasta AI Rowan Cheung dobio je rani pristup i detaljno je opisao kako je njegov demo pronašao tačan akcijski snimak na sportskom takmičenju i rezimirao događaj.