Vartotojų teiginius apie populiaraus pokalbių roboto „sugedimą“ ėmėsi patikrinti Stanfordo universiteto mokslininkai. Jie atliko pilnavertį tyrimą, kurio metu palygino dabartinės DI versijos galimybes su ankstesniais rezultatais. Kaip paaiškėjo, kalbos modelis iš tikrųjų tapo daug „kvailesnis” vos per tris mėnesius.
Remiantis eksperimento rezultatais teigiama, kad 2023 m. kovo–birželio mėn. GPT-4 atsakymų tikslumas labai krito įvairiuose scenarijuose. Pavyzdžiui, pokalbių roboto buvo paprašyta išsiaiškinti, ar skaičius 17 077 yra pirminis, prie užklausos pridedant frazę „Mąstyk nuosekliai“. Tyrėjų teigimu, tai turėjo būti užuomina ir priversti DI spręsti problemą etapais, pateikiant nuoseklų aprašymą. Jo gautas atsakymas buvo neteisingas ir jokiais paaiškinimais nebuvo palydėtas.
Mokslininkų teigimu, GPT-4 atsakymų tikslumas kai kuriose srityse birželį nukrito iki 2,4 proc. Palyginimui, kovo mėnesį šis rodiklis siekė 97,5 proc.
Rašydamas kodą, robotas pradėjo duoti tik apie 10% teisingų rezultatų, palyginti su 52% kovo mėn. Galiausiai, į 100 „jautrių“ klausimų birželio mėnesio GPT-4 versija pateikė atsakymus tik 5% atvejų – kovo mėnesį šis skaičius buvo apie 21%. Įdomu tai, kad GPT-3.5 modelio tikslumas, priešingai, išaugo. Visų pirma, birželio mėnesį pokalbių robotas teisingai atsakė į daugiau klausimų nei kovo mėnesį – 8%, palyginti su 2%.
Pasak mokslininkų, vartotojai, kurie savo darbe pasikliauja GPT-3.5 ir GPT-4 galimybėmis, turėtų nuolat tikrinti rezultatų tikslumą.