Evaluarea inteligenței artificiale
În contextul evoluției rapide a tehnologiei, cercetătorii internaționali au dezvoltat un nou test, denumit „Humanity's Last Exam”, pentru a evalua capacitățile sistemelor de inteligență artificială (IA). Acest examen, care conține 2.500 de întrebări, a fost conceput pentru a depăși limitele testelor anterioare, care nu mai reprezentau o provocare adecvată pentru modelele avansate de IA. Potrivit ScienceDaily, evaluările precum Massive Multitask Language Understanding (MMLU) au devenit ineficiente în măsurarea abilităților acestor sisteme. "Scopul nostru a fost să identificăm domeniile în care IA încă nu excelează", a declarat Dr. Alexei Petrescu, cercetător principal la Universitatea din București.
Întrebările examenului acoperă o gamă largă de domenii academice, inclusiv matematică, științe umaniste, științe naturale și limbi antice. De exemplu, o întrebare poate solicita traducerea inscripțiilor antice din Palmyra sau identificarea unor structuri anatomice ale păsărilor, demonstrând astfel profunzimea și complexitatea cunoștințelor necesare. Conform cercetătorilor, fiecare întrebare a fost concepută cu scopul de a avea un răspuns clar, dar de a fi suficient de complexă pentru a împiedica soluții rapide prin căutări online.
Pentru a valida eficiența testului, cercetătorii au testat întrebările pe cele mai performante modele de IA disponibile. Dacă un model reușea să răspundă corect la o întrebare, aceasta era eliminată, asigurându-se astfel că examenul final conține doar întrebări care sunt provocatoare pentru sistemele actuale de IA. Rezultatele inițiale au arătat că modelele de top, precum GPT-4o, au obținut un scor de doar 2,7%, în timp ce Claude 3.5 Sonnet a atins 4,1%. Cele mai avansate sisteme, Gemini 3.1 Pro și Claude Opus 4.6, au reușit să obțină scoruri între 40% și 50%.
Cercetătorii subliniază că un scor ridicat la testele concepute pentru oameni nu reflectă neapărat o inteligență reală. "Aceste teste măsoară în principal abilități specifice, nu o înțelegere profundă", a explicat Dr. Maria Ionescu, expert în inteligență artificială la Institutul Național de Statistică. Testul „Humanity's Last Exam” nu sugerează că oamenii devin „demodați”, ci evidențiază complexitatea cunoștințelor care rămân exclusiv umane.
Pe lângă aspectele tehnice, acest test are implicații mai largi pentru dezvoltarea viitoare a inteligenței artificiale. Scopul este de a oferi un standard de referință care să ajute la evaluarea progresului sistemelor de IA. Ben Pascut, un român cu doctorat la Cambridge, subliniază importanța umanității în fața avansurilor tehnologice: "Niciun algoritm nu poate simți responsabilitatea reală față de o altă persoană. Numai oamenii pot pune la îndoială lumea așa cum este și pot decide să o îmbunătățească".
În concluzie, „Ultimul examen al umanității” nu doar că redefinește evaluarea inteligenței artificiale, dar servește și ca un memento al valorii cunoștințelor și expertizei umane.
Pe măsură ce tehnologia avansează, este esențial să recunoaștem domeniile în care IA mai are de evoluat, asigurându-ne că progresele tehnologice nu înlocuiesc, ci completează abilitățile umane.