Kreatori AI modela implementiraju filtere poznate kao "guardrails"

veštačka (Ne)inteligencua

JEDNO DUGME NA TASTATURI SRUŠILO SVE ZIDOVE METE: Kako je čuveno "space" napravilo pravi haos

Ispostavilo se da Prompt-Guard-86M može biti prevaren ako se dodaju razmaci između slova i izostavi interpunkcija.

Najnoviji model za detekciju napada pomoću promptova kompanije Meta, Prompt-Guard-86M, razvijen za prepoznavanje štetnih unosa i jailbreak ulaza, pokazao se ranjivim na iste napade koje je trebalo da spreči. Meta je prošle nedelje predstavila ovaj model zajedno sa svojim generativnim modelom Llama 3.1 kako bi pomogla programerima da otkriju i reaguju na ove pretnje.

Foto: Shutterstock

Veliki jezički modeli (LLM) obučeni su na ogromnim količinama teksta i podataka, što može dovesti do ponavljanja štetnog ili netačnog sadržaja. Zato kreatori AI modela implementiraju filtere poznate kao "guardrails" kako bi sprečili štetne upite i odgovore.

Međutim, korisnici AI modela su razvili načine da zaobiđu ove filtere koristeći prompt injection - unose koji navode LLM da ignoriše interne sistemske promptove. Ovaj problem je već dugo poznat, a primer je tehnika koju su prošle godine razvili naučnici sa Univerziteta Karnegi Melon, koja generiše protivničke promptove za narušavanje sigurnosnih mehanizama.

Jedan od najpoznatijih prompt injection napada počinje sa "Ignore previous instructions...", dok je uobičajen jailbreak napad "Do Anything Now" ili "DAN" napad, koji nagovara LLM da preuzme ulogu DAN, modela bez pravila.

Foto: Shutterstock

Ispostavilo se da Prompt-Guard-86M može biti prevaren ako se dodaju razmaci između slova i izostavi interpunkcija - u suštini model može biti prevaren "spacebar" tasterom na tastaturi. Aman Prijanšu, lovac na greške iz kompanije Robust Intelligence, otkrio je ovu ranjivost analizirajući razlike u težini ugradnje između modela kompanije Meta i osnovnog modela microsoft/mdeberta-v3-base.

Prompt-Guard-86M je napravljen finim podešavanjem osnovnog modela kako bi mogao da prepoznaje visokorizične promptove. Ali Prijanšu je otkrio da finim podešavanjem nije značajno promenjena reakcija na pojedinačna engleska slova. Kao rezultat toga, on je uspeo da osmisli napad ubacivanjem razmaka između svih slova u promptu, čime je klasifikator postao nesposoban da detektuje potencijalno štetan sadržaj.

Foto: Shutterstock

Ova otkrića naglašavaju rizik koji AI modeli nose, a koji se može ilustrovati primerom prodavnice automobila u Kaliforniji, gde je četbot pristao da proda automobil vredan 76.000 dolara za samo 1 dolar.

Hajrum Anderson, CTO kompanije Robust Intelligence, potvrdio je da jednostavno uklanjanje interpunkcije i dodavanje razmaka između slova može značajno povećati uspešnost napada, od manje od 3% do gotovo 100%. Anderson je istakao da je važno podići svest među kompanijama koje koriste AI o mogućim problemima koji se mogu pojaviti.

Piše: TheRegister/Telegraf/Kurir/Darko Mulic

Budi deo Kurir zajednice.

Reaguj

Komentariši

JEDNO DUGME NA TASTATURI SRUŠILO SVE ZIDOVE METE: Kako je čuveno "space" napravilo pravi haos

JA SAM MU DAO 5.000 EVRA ZA OPERACIJU! Sumnjam da ćemo se više ikada gledati, ALI JE VAŽNO DA NEŠTO SAZNA PRE SMRTI...

ŠOK U JUTARNJEM! OVO NIKO NIJE OČEKIVAO - Šapić javno tražio od Marića da odgovori na JEDNO PITANJE pa pomenuo RAZVOD!

Šuška se da je ona kriva za navodni razvod Ane Ivanović i Bastijana: Ne razdvajaju se, lepa novinarka je trudna

NAKON TOLIKO GODINA PROGOVORIO VODITELJ ZA KOJEG SU SVI PRIČALI DA JE IMAO ODNOSE SA KIJOM PRED MILIONIMA Sloba zbog njega LUDEO, on priznao: Sve mi se VRATILO

MANČESTER SITI PONOVO OTVARA SEF! Gvardiola našao zamenu za De Brujnea - Građani poslali astronomsku ponudu!

Elon Mask napokon uradio DNK test: Influenserka tvrdila da su dobili sina, a ovo su rezultati pokazali

VUČIĆ DOČEKAN OVACIJAMA ISPRED SKUPŠTINE SRBIJE! Narod predsedniku klicao "Aco, Srbine!", on sišao da ih pozdravi: "Beskrajno vam hvala!" (VIDEO)

Šta god uradila, Kejti Peri je najomraženija zvezda na svetu

Ana i Bastijan se razvode? Nemački mediji otkrili detalje o kraju idilične romanse

Holivudski šmeker zbog Srpkinje Sandre postao pravoslavac: Najpoželjnijeg neženju odvela pred oltar, a decu tera da nauče srpski

Umro Filip David

Popadija otkriva zašto se jaja ne farbaju na Veliki petak: "Monahinje u Žiči to rade na ovaj dan, svekrva me naučila"

Nedeljni horoskop od 13. do 19. aprila: Ovnovi i Bikovi kubure sa novcem, Rakovima ulazi uzbuljiva osoba u život

OKONČANA BLOKADA FAKULTETA ZA SPORT I FIZIČKO VASPITANJE U NOVOM SADU: Većina aktivnih studenata uključila se u online nastavu

BLOKADERI PRAVILI HAOS NAKON SKUPA U TAKOVSKOJ: Gnusno vređali predsednika države, pijani hteli da preskoče ogradu u Pionirskom parku, pronađen i bokser!

SRAMOTA! BLOKADERKA OPISALA KAKO SPROVODE TALAČKU KRIZU ISPRED RTS: Opkolili smo pet vozila Žandarmerije i naravno ne dozvoljavamo da izađu (foto)

BLOKADERI VREĐALI POLICAJCE, BLOKIRALI VOZILA SAJ, JEDAN POVREĐEN: Oglasio se MUP povodom dešavanja ispred RTS

DONELI SU KATEGORIČNI ZAKLJUČAK DA AKUSTIČNI UREĐAJI NISU KORIŠĆENI Vučić: Dobili smo zvaničan izveštaj FSB!

Gigant je na kolenima: I Bil Gejts im predviđa lošu sudbinu

Meta lansira dodatne Llama 4 modele: Behemoth, Scout i Maverick kao deo serije

Bivši zaposleni u OpenAI-u besni na Sama Altmana: "Osoba niskog integriteta"

Ana i Bastijan se razvode? Nemački mediji otkrili detalje o kraju idilične romanse

Holivudski šmeker zbog Srpkinje Sandre postao pravoslavac: Najpoželjnijeg neženju odvela pred oltar, a decu tera da nauče srpski

Umro Filip David

U Nišu nema kupovine bez provere "papira"

Novo ime, ali ogromno iskustvo: Ovo je jedina agencija koja vam treba ako kupujete ili prodajete nekretninu u Novom Sadu

Kupovina stana putem kredita za mlade: Da li imete pravo na povrat PDV - stručnjak za nekretnine otkriva sve detalje

Pad cena zakupa u Beogradu: Idealna prilika za iznajmljivanje stana?

Tržište stanova u Novom Sadu u preokretu: šta donose nove promene za kupce i prodavce?

Tržište nekretnina ne miruje: Kvadrat u proseku skuplji za 5,05%

Ana i Bastijan se razvode? Nemački mediji otkrili detalje o kraju idilične romanse

Holivudski šmeker zbog Srpkinje Sandre postao pravoslavac: Najpoželjnijeg neženju odvela pred oltar, a decu tera da nauče srpski

Umro Filip David

Popadija otkriva zašto se jaja ne farbaju na Veliki petak: "Monahinje u Žiči to rade na ovaj dan, svekrva me naučila"

Nedeljni horoskop od 13. do 19. aprila: Ovnovi i Bikovi kubure sa novcem, Rakovima ulazi uzbuljiva osoba u život

Poravnanje 4 planete sprema haos 17. aprila: Ovih pet horoskopskih znakova biće na najvećem udaru

Biciklista koji nikada nije pušio oboleo od raka pluća: Bolest otkrivena u kasnoj fazi, a jedini simptom bio je u njegovoj nozi

Kako da napravite simbol krstića na uskršnjim jajima: Za ovaj postupak potrebna vam je lukovina i još jedna stvar koju sigurno imate u domaćinstvu

Kristina je s mužem 2010. usvojila Nataliju: Mislili su da ima 8 godina, a kada su je odveli kod lekara saznali su strašnu istinu

Ovako izgleda sin Aleksandra Berčeka: Nikola je deo popularne serije "Tajna vinove loze", evo čime se bavi

Fotografije sve pokazuju: Ana Ivanović skinula burmu, Bastijana nema ni na vidiku

"Zaboravite na uskršnjeg zeku za vreme Vaskrsa": Otac Predrag Popović otkrio surovu istinu o zecu koji nema veze sa hrišćanstvom

JEDNO DUGME NA TASTATURI SRUŠILO SVE ZIDOVE METE: Kako je čuveno "space" napravilo pravi haos

JA SAM MU DAO 5.000 EVRA ZA OPERACIJU! Sumnjam da ćemo se više ikada gledati, ALI JE VAŽNO DA NEŠTO SAZNA PRE SMRTI...

ŠOK U JUTARNJEM! OVO NIKO NIJE OČEKIVAO - Šapić javno tražio od Marića da odgovori na JEDNO PITANJE pa pomenuo RAZVOD!

Šuška se da je ona kriva za navodni razvod Ane Ivanović i Bastijana: Ne razdvajaju se, lepa novinarka je trudna

NAKON TOLIKO GODINA PROGOVORIO VODITELJ ZA KOJEG SU SVI PRIČALI DA JE IMAO ODNOSE SA KIJOM PRED MILIONIMA Sloba zbog njega LUDEO, on priznao: Sve mi se VRATILO

MANČESTER SITI PONOVO OTVARA SEF! Gvardiola našao zamenu za De Brujnea - Građani poslali astronomsku ponudu!

Elon Mask napokon uradio DNK test: Influenserka tvrdila da su dobili sina, a ovo su rezultati pokazali

VUČIĆ DOČEKAN OVACIJAMA ISPRED SKUPŠTINE SRBIJE! Narod predsedniku klicao "Aco, Srbine!", on sišao da ih pozdravi: "Beskrajno vam hvala!" (VIDEO)

Šta god uradila, Kejti Peri je najomraženija zvezda na svetu

Ana i Bastijan se razvode? Nemački mediji otkrili detalje o kraju idilične romanse

Holivudski šmeker zbog Srpkinje Sandre postao pravoslavac: Najpoželjnijeg neženju odvela pred oltar, a decu tera da nauče srpski

Umro Filip David

Popadija otkriva zašto se jaja ne farbaju na Veliki petak: "Monahinje u Žiči to rade na ovaj dan, svekrva me naučila"

Nedeljni horoskop od 13. do 19. aprila: Ovnovi i Bikovi kubure sa novcem, Rakovima ulazi uzbuljiva osoba u život

OKONČANA BLOKADA FAKULTETA ZA SPORT I FIZIČKO VASPITANJE U NOVOM SADU: Većina aktivnih studenata uključila se u online nastavu

BLOKADERI PRAVILI HAOS NAKON SKUPA U TAKOVSKOJ: Gnusno vređali predsednika države, pijani hteli da preskoče ogradu u Pionirskom parku, pronađen i bokser!

SRAMOTA! BLOKADERKA OPISALA KAKO SPROVODE TALAČKU KRIZU ISPRED RTS: Opkolili smo pet vozila Žandarmerije i naravno ne dozvoljavamo da izađu (foto)

BLOKADERI VREĐALI POLICAJCE, BLOKIRALI VOZILA SAJ, JEDAN POVREĐEN: Oglasio se MUP povodom dešavanja ispred RTS

DONELI SU KATEGORIČNI ZAKLJUČAK DA AKUSTIČNI UREĐAJI NISU KORIŠĆENI Vučić: Dobili smo zvaničan izveštaj FSB!

Gigant je na kolenima: I Bil Gejts im predviđa lošu sudbinu

Meta lansira dodatne Llama 4 modele: Behemoth, Scout i Maverick kao deo serije

Bivši zaposleni u OpenAI-u besni na Sama Altmana: "Osoba niskog integriteta"

Ana i Bastijan se razvode? Nemački mediji otkrili detalje o kraju idilične romanse

Holivudski šmeker zbog Srpkinje Sandre postao pravoslavac: Najpoželjnijeg neženju odvela pred oltar, a decu tera da nauče srpski

Umro Filip David

U Nišu nema kupovine bez provere "papira"

Novo ime, ali ogromno iskustvo: Ovo je jedina agencija koja vam treba ako kupujete ili prodajete nekretninu u Novom Sadu

Kupovina stana putem kredita za mlade: Da li imete pravo na povrat PDV - stručnjak za nekretnine otkriva sve detalje

Pad cena zakupa u Beogradu: Idealna prilika za iznajmljivanje stana?

Tržište stanova u Novom Sadu u preokretu: šta donose nove promene za kupce i prodavce?

Tržište nekretnina ne miruje: Kvadrat u proseku skuplji za 5,05%