Studiu despre greșelile ChatGPT în domeniul științific

Publicat: · Actualizat: · Timp de citire: 3 minute

Pe scurt

Un studiu recent arată că ChatGPT are o acuratețe de doar 60% în evaluarea ipotezelor științifice, ceea ce ridică întrebări serioase despre fiabilitatea sa. Inconsistențele în răspunsuri sugerează că utilizarea sa pentru decizii critice ar trebui tratată cu prudență.

EN

Brief

A recent study reveals that ChatGPT has only a 60% accuracy rate in evaluating scientific hypotheses, raising serious questions about its reliability. The inconsistencies in its responses suggest that using it for critical decisions should be approached with caution.

Studiu despre greșelile ChatGPT în domeniul științific
Sursa foto: mediafax.ro

Inconsistențe în evaluarea ipotezelor

Un nou studiu a pus ChatGPT la încercare, cerându-i să evalueze dacă sute de ipoteze științifice erau adevărate sau false. Rezultatele au fost departe de a fi liniștitoare. Echipa de cercetători a evaluat peste 700 de ipoteze și a pus aceeași întrebare de 10 ori pentru fiecare dintre ele, pentru a măsura gradul de consecvență, arată ScienceDaily citat de Mediafax. Când experimentul a fost realizat pentru prima dată în 2024, ChatGPT a răspuns corect în 76,5% din cazuri. Într-un test de urmărire din 2025, precizia a crescut ușor la 80%. Cu toate acestea, odată ce cercetătorii au ajustat rezultatele pentru a ține cont de ghicirea aleatorie, rezultatele au părut mult mai puțin impresionante. Inteligența artificială (IA) a avut o performanță cu doar aproximativ 60% mai bună decât șansa, un nivel mai apropiat de un D scăzut decât de o fiabilitate puternică. Sistemul a întâmpinat cele mai mari dificultăți în identificarea afirmațiilor false, etichetându-le corect doar în 16,4% din cazuri. De asemenea, a prezentat o inconsistență notabilă. Chiar și atunci când i s-a dat exact aceeași solicitare de 10 ori, ChatGPT a produs răspunsuri consecvente doar în aproximativ 73% din cazuri. „Nu vorbim doar despre acuratețe, vorbim despre inconsistență, pentru că dacă pui aceeași întrebare iar și iar, obții răspunsuri diferite”, a spus Cicek, profesor asociat la Departamentul de Marketing și Afaceri Internaționale din cadrul Carson College of Business al WSU și autor principal al noii publicații. „Am folosit 10 solicitări cu exact aceeași întrebare. Totul era identic. Răspundea că este adevărat. Apoi, spune că este fals. Este adevărat, este fals, fals, adevărat. Au existat mai multe cazuri în care au fost cinci răspunsuri adevărate și cinci false”. Concluziile subliniază importanța prudenței atunci când ne bazăm pe IA pentru decizii importante, în special cele care necesită un raționament nuanțat sau complex. Deși IA generativă poate produce un limbaj fluent și convingător, aceasta nu demonstrează încă același nivel de înțelegere conceptuală. Pe baza acestor constatări, cercetătorii recomandă liderilor de afaceri să verifice informațiile generate de IA și să le abordeze cu scepticism. De asemenea, ei subliniază necesitatea formării pentru a înțelege mai bine ce pot și ce nu pot face eficient sistemele de IA. Deși acest studiu s-a concentrat în mod specific pe ChatGPT, Cicek a remarcat că experimente similare cu alte instrumente de IA au produs rezultate comparabile. Lucrarea se bazează, de asemenea, pe cercetări anterioare care indică prudență în ceea ce privește entuziasmul excesiv legat de IA. Un sondaj național din 2024 a constatat că consumatorii erau mai puțin dispuși să cumpere produse atunci când acestea erau comercializate cu accent pe IA.