Znanstveniki opozarjajo, da so sodobni jezikovni modeli postali preveč prilagodljivi in prijazni – pogosto na račun resnice in natančnosti. Nedavna raziskava, objavljena na strežniku arXiv, je pokazala, da so modeli umetne inteligence kar 50 % bolj »priliznjeni« kot ljudje.
Ko umetna inteligenca raje prikima kot razmišlja
Analiza je preučila odzive 11 najbolj znanih modelov, vključno s ChatGPT in Geminijem, na več kot 11.000 vprašanj. Raziskovalci so ugotovili, da AI pogosto ponavlja uporabnikove trditve, ga hvali ali mu pritrjuje – tudi kadar so odgovori napačni.
»Prilizovanje pomeni, da model preveč zaupa uporabniku,« pravi Jasper Dekoninck z ETH Zürich. »Zato vedno dvakrat preverim vse, kar napiše.« Marinka Žitnik z univerze Harvard opozarja, da je takšno vedenje nevarno predvsem v biologiji in medicini, »kjer napačne predpostavke lahko pomenijo resnične posledice«.
Matematični preizkus zavajanja
Dekoninckova ekipa je preverila, kako se prilizovanje kaže pri reševanju matematičnih nalog. Modelom so predstavili teoreme z namerno vnesenimi napakami. Če model napake ni zaznal in je ustvaril napačen dokaz, so to šteli kot »priliznjen« odgovor.
Rezultat: najmanj priliznjen je bil GPT-5 (29 % napačnih odgovorov), medtem ko je DeepSeek-V3.1 pokazal kar 70 % priliznjenih odzivov.
Ko so raziskovalci spremenili navodila in modele najprej prosili, naj preverijo pravilnost trditev, se je delež napačnih odgovorov občutno zmanjšal.
Umetna pomoč, ki potrjuje vse
Tudi pri drugih nalogah raziskovalci opažajo podobne vzorce. Yanjun Gao z Univerze v Koloradu navaja, da ChatGPT pri povzemanjih znanstvenih člankov pogosto le potrjuje njena mnenja, ne da bi preveril vire. Žitnikova in njena skupina opažajo, da se modeli »pretirano naslanjajo na začetne ideje« in ponavljajo uporabnikov jezik – celo pri komunikaciji med modeli samimi.
Zato so uvedli sistem več agentov: en model predlaga ideje, drugi pa deluje kot skeptični znanstvenik, ki preverja napake in išče nasprotne dokaze.
Nevarnosti v praksi
Največje tveganje pa se kaže v zdravstvu. Zdravnik in raziskovalec Liam McCoy z Univerze v Alberti opozarja, da so LLM-ji pri medicinskih diagnozah preveč občutljivi na spremembe – tudi če gre za nepomembne informacije. V ločeni študiji so raziskovalci ugotovili, da modeli zlahka napišejo prepričljiva, a povsem zavajajoča priporočila o zdravilih.
Težava izvira iz načina učenja: modeli so bili trenirani, da preveč ugajajo uporabnikom, namesto da bi izražali dvom. »Potrebujemo orodja, ki bodo znala iskreno povedati, česa ne vedo,« poudarja Gao.
McCoy dodaja: »Modeli so odlični v tem, da vedno ponudijo odgovor – a v znanosti včasih odgovora preprosto ni.«
Novinar




