MAŠINSKO UČENJE BUDUĆNOST DIGITALNIH MEDIJA: Da li će internet portali naučiti da pevaju narodnjake?
Jedna od tema koje zaokupljaju svet informacionih tehnologija u današnje vreme je mašinsko učenje (engl. machine learning). Ono podrazumeva postojanje algoritama koji omogućavaju različitim računarskim sistemima da uče na bazi iskustva i da sami izgrade sposobnost adaptiranja na nove situacije.
Mašinsko učenje podrazumeva da generički algoritmi mogu sami, na osnovu prethodnog iskustva, da pristupe obradi podataka prilagođavajući ih određenim okolnostima, a da pri tome nije potrebno napisati poseban kod koji bi rešio taj problem.
Mašinsko učenje je nastalo kao nusproizvod rada na razvoju veštačke inteligencije, kada su programeri uvideli potrebu za primenom metoda proučavanja podataka i samoučenja na kompjuterske programe namenjene rešavanju praktičnih problema.
Iako predstavalja "disciplinu" koja je i dalje, uporedo sa veštačkom inteligencijom, u stalnom razvoju, mašinsko učenje nailazi na sve širu primenu.
Jedno od polja u kome ono postaje sve prisutnije je razvoj internet sajtova koji algoritme mašinskog učenja mogu da koriste za segmentaciju i personalizaciju sadržaja, što je svakako od značaja za informativne veb portale kakav je ovaj koji upravo čitate.
O tome bilo je reči i na konferenciji Data Science 4.0, nedavno održanoj u Beogradu. Predstavnici hrvatske kompanije Styria, u čijem se poslovnom portfoliju nalaze neki od najposećenijih internet medija u toj zemlji, govorili su na temu "Machine Learning in News Media" na primeru portala 24sata.hr.
Govoreći o sopstvenom iskustvu sa primenom mašinskog učenja Marko Velić, Head of Data Science u kompaniji Styria, kaže da se ono u SAD, Velikoj Britaniji, Australiji i Skandinaviji već skoro pet godina primenjuje u interent medijima.
Na pitanje koliko su današnji internet portali, sa stanovišta mašinskog učenja, napredniji, bolji i kvalitetniji u odnosu na vreme od pre desetak godina, Marko odgovara:
"Ja bih rekao dosta. Kod nas u regiji to možda baš i nije slučaj, ali na Zapadu svakako jeste. Reč je o takozvanim 'Language processing and
recommendation' sistemima za poboljšanje sadržaja. Nigde, međutim, do sada nismo videli neke radikalne promene u smislu personalizacije, a to je ono što bismo mi hteli da postignemo."
Koliko je primena mašinskog učenja kod veb medija značajna sa stanovišta činjenice da drušvene mreže preuzimaju primat kada je informisanje u pitanju?
"Ako medijske kompanije zaista žele da konkurišu Facebooku i Googleu, u smislu digitalnog advertajzinga i ozbiljnog šera na tom tržištu, do koga se dolazi putem toga koliko vremena čitaoci provode na sajtu i kako konzumiraju sadržaj, mislim da je nužno da se napusti tradicionalni koncept 'homepage'-a, odnosno naslovnice sa nekim kategorijama, već se mora preći na koncept 'feed'-a koji je uveo Facebook, a na koji su korisnici u dobroj meri već navikli".
Prezentacija &Machine Learning in News Media& / Foto: Data Science 4.0
Prezentacija "Machine Learning in News Media" / Foto: Data Science 4.0
Automatsko prepoznavanje lica na fotografijama koje postavljamo na društvene mreže upravo je posledica mašinskog učenja.
Mašinsko učenje je zaslužno i za prepoznavanje govora, filtriranje neželjene elektronske pošte ili prilagođavnja rezultata pretraživanja interneta osnovnom upitu.
Na njemu je zasnovan i rad virtuelnih asistenata Apple Siri, Amazon Alexa i Google Now, kao i savremena softverska rešenja za video nadzor.
Drugim rečima, poenta mašinskog učenja kod internet portala je da segmentacijom sadržaja dođe do toga da "ingejdžement" na različitim tematskim sadržajima bude izražajniji, odnosno da što raznovrsniji sadržaji budu što vidljiviji?
"Upravo tako. Treba imati na umu da je jako važno da to bude propraćeno uređivačkom politikom portala. Možemo mi da napravimo savršene modele i savršene sisteme za preporuku, ali ako nema tog sadržaja koji će zadovoljiti tu manju grupu, ako novinari ne počnu da rade kvalitetniji sadržaj, onda neće imati šta da se preporučuje takvim korisnicima."
"Mi očekujiemo od novinara da počnu da pišu raznolikiji sadržaj, da počnu da se bavi ozbiljnijim novinarstvom i istraživačkim novinarstvom, i da počnu da pokrivaju naučne i teme iz oblasti tehnologije. Novinari neće ostati bez posla, a 'mašina' je tu da pomaže da ono što oni napišu učini vidljivijim."
Imajući u vidu šta pretežno čini sadržaj najvećeg broja portala u regionu, da li bi, u nekom trenutku, moglo da se očekuje da mašinsko učenje "nauči" portale da pevaju narodnjake ili da učestvuju u rijalitiju...
"Nadamo se da neće. Ja bih rekao da je to fantastična prlika upravo da se reši ta stigma da mediji imaju samo ovakav ili samo onakav sadržaj. Realno, urednici medija su jako dobro, u svojoj glavi, optimizovali svoj 'machine learning' za ono što prolazi na tržištu. Naši portali su odraz naših društava."
"E sad, pošto postoji manji deo društva koji zanimaju neke druge teme, njih nameravamo da se dohvatimo putem kvalitetnije personalizacije, pa da neko koga ne zanima fudbal, ne dobija fudbal u feed-u, da neko koga ne zanimaju narodnjaci ne dobija narodnjake u svom feed-u, ali to će opet biti manji deo tržišta, osim ako se ti korisnici, upravo zahvaljujući tome, ne odluče da više konzumiraju naše portale i naš sadržaj, čemu se upravo i nadamo."
Styria je od Googleovog DNI fonda (Digital News Innovation Fund) dobila sredstva za razvoj na NLP-a (Natural Language Processing / Obrada prirodnih jezika) u digitalnim medijima. Cilj tog projekta bila je personalizacija korisničkog iskustva kod informativnih portala.
Na putu ka njegovom ostvarenju bilo je potrebno rešiti različite probleme kao što su: automatsko tagovanje teksta, čišćnje duplih i srodnih tagova (gde je njihov broj sveden sa 48.000 na samo 8.000), kontekstualno prepoznavanje tematski srodnih tekstova i slično.
(Kurir.rs/B92, M.Jovanović)