Veliko istraživanje. Vodeći AI asistenti imaju ozbiljne greške u skoro polovici svojih odgovora

iStock

Ukupno je 45 posto analiziranih AI odgovora sadržavalo barem jednu ozbiljnu pogrešku

povezane vijesti

AI bi do 2035. godine mogao “izbrisati” tri milijuna niskokvalificiranih radnih mjesta
VIDEO Razbijamo najpopularnije AI mitove: može li nas umjetna inteligencija doista pratiti?
Muskov AI sada tvrdi da je Elon “u boljoj formi” od LeBrona i da bi pobijedio Tysona

Vodeći AI asistenti pogrešno prikazuju sadržaj vijesti u gotovo polovici svojih odgovora, pokazalo je istraživanje objavljeno u srijedu koje su proveli Europska radiodifuzijska unija (EBU) i BBC.

Međunarodno istraživanje analiziralo je tri tisuće odgovora na pitanja o vijestima postavljena najpoznatijim AI asistentima – softverskim aplikacijama koje koriste umjetnu inteligenciju za razumijevanje prirodnog jezika i obavljanje zadataka za korisnika.

Procijenjeni su AI asistenti na 14 jezika prema kriterijima točnosti, navođenja izvora i sposobnosti razlikovanja mišljenja od činjenica, među kojima su ChatGPT, Copilot, Gemini i Perplexity.

“Halucinacije”

Ukupno je 45 posto analiziranih AI odgovora sadržavalo barem jednu ozbiljnu pogrešku, dok je 81 posto imalo neki oblik problema, pokazalo je istraživanje.

Reuters je kontaktirao tvrtke uključene u istraživanje kako bi zatražio njihov komentar o rezultatima istraživanja.

Gemini, Googleov AI asistent, ranije je na svojoj internetskoj stranici naveo da pozdravlja povratne informacije korisnika kako bi se platforma mogla nastaviti poboljšavati i postati korisnija.

OpenAI i Microsoft su prethodno izjavili da su takozvane “halucinacije”, situacije u kojima AI model generira netočne ili zavaravajuće informacije zbog, primjerice, nedostatka podataka – problem na kojem aktivno rade kako bi ga otklonili.

Perplexity na svojoj stranici navodi da jedan od njegovih načina rada, nazvan “Deep Research”, ima točnost od 93,9 posto u pogledu činjenica.

Pogreške u navođenju izvora

Trećina odgovora AI asistenata pokazala je ozbiljne pogreške u navođenju izvora, poput izostanka izvora, pogrešnog ili netočnog navođenja, navodi se u istraživanju.

Čak 72 posto odgovora Geminija, Googleova AI asistenta, imalo je značajne probleme s izvorima, u usporedbi s manje od 25 posto kod svih ostalih asistenata.

Problemi s točnošću utvrđeni su u 20 posto svih analiziranih odgovora, uključujući slučajeve zastarjelih informacija.

Primjeri navedeni u istraživanju uključuju situaciju u kojoj je Gemini pogrešno naveo izmjene zakona o jednokratnim e-cigaretama te slučaj kada je ChatGPT nekoliko mjeseci nakon smrti pape Franje i dalje navodio da je on aktualni papa.

Zamjena za tražilice

U istraživanju je sudjelovalo 22 javna medijska servisa iz 18 zemalja, među kojima su Francuska, Njemačka, Španjolska, Ukrajina, Velika Britanija i Sjedinjene Američke Države.

Kako AI asistenti sve više zamjenjuju tradicionalne internetske tražilice u pristupu vijestima, javno povjerenje moglo bi biti ozbiljno narušeno, upozorio je EBU.

“Kada ljudi više ne znaju čemu mogu vjerovati, na kraju ne vjeruju ničemu, a to može obeshrabriti sudjelovanje u demokratskim procesima”, izjavio je direktor EBU-a za medije Jean Philip De Tender.

Prema Digital News Reportu 2025. Reutersova instituta, oko sedam posto svih korisnika interneta koji prate vijesti i čak 15 posto onih mlađih od 25 godina koristi AI asistente za informiranje o aktualnostima.

Novo izvješće poziv je AI kompanije na veću odgovornost i poboljšanje načina na koji njihovi asistenti odgovaraju na pitanja povezana s vijestima.