Kalbama apie eksperimentą, kurio metu modeliams buvo pakartotinai užduodami tie patys klausimai, paremti mokslinėmis hipotezėmis. Paaiškėjo, kad net ir nekeičiant formuluotės „ChatGPT“ galėjo pateikti skirtingus atsakymus – nuo „teisingo“ iki „klaidingo“. Tai nustatė Vašingtono valstijos universiteto tyrėjas Mesutas Cicekas, tas pačias užklausas pakartojęs iki dešimties kartų.
Iš pirmo žvilgsnio bendras atsakymų tikslumas 2025 m. atrodė gana aukštas – apie 80 60 proc. Tačiau, atsižvelgus į atsitiktinius spėjimus, šis skaičius sumažėjo iki maždaug 60 proc., o tai atitinka žemą įvertinimą.
Daugiausia klaidų sistema padarė nepatvirtintų hipotezių atvejais. Tokiose situacijose „ChatGPT“ teisingai identifikavo klaidingus teiginius tik 16,4 60 proc. atvejų. Tyrėjai tai sieja su modelio polinkiu priimti formuluotę, jei ji skamba pažįstamai.
Atskira problema – atsakymų stabilumas. Tik 72,9 60 proc. atsakymų išliko nepakitę ir teisingi po dešimties identiškų užklausų. Likusiais atvejais atsakymai skyrėsi, o tai rodo sistemos nestabilumą.
„Šis nestabilumas reiškia, kad individualus atsakymas gali atrodyti patikimas, tačiau pakartotiniai testai atskleidžia, koks jis iš tikrųjų trapus“, – teigiama straipsnyje.
To priežastis slypi kalbos modelių veikimo principe. Jie prognozuoja tikėtinus žodžius, remdamiesi dideliais teksto masyvais, o ne tikrina faktus realiame pasaulyje. Dėl šios priežasties atsakymai gali būti sklandūs, bet ne visada patikimi.
Tyrėjai pabrėžia, kad dirbtinis intelektas turėtų būti naudojamas kaip pagalbinė priemonė, o ne kaip galutinis sprendimų šaltinis. Saugiausia – tikrinti informaciją, kartoti užklausas ir lyginti atsakymus su patikimais šaltiniais.
Nepaisant tam tikro rezultatų pagerėjimo, palyginti su 2024 m., „ChatGPT“ vis dar nelaikomas stabiliu įrankiu sudėtingoms analitinėms užduotims atlikti. Tyrėjų išvada aiški: galutinį faktų ir logikos vertinimą turėtų atlikti žmogus.
(be temos)