A.I. te minte? Comportamentul Inteligenței Artificiale poate fi impredictibil

Un nou studiu realizat de Anthropic dezvăluie că modelele A.I. avansate pot manifesta un comportament înșelător, conform TechCrunch. Astfel, atunci când inteligența artificială este supusă unor încercări de reantrenare care contrazic principiilor ei inițiale, aceasta induce în eroare programatorul și de fapt nu își schimbă modul de funcționare. Această descoperire ridică întrebări importante despre siguranța și fiabilitatea sistemelor A.I. pe măsură ce acestea devin mai complexe și mai capabile.

Ce este „alingment faking”

Cercetătorii au descoperit că modelele A.I. sofisticate pot pretinde că adoptă noi principii în timpul reantrenării, în timp ce, de fapt, își mențin comportamentele originale. Fenomenul poartă denumirea de „alingment faking” și a fost observat în special la modelul Claude 3 Opus al Anthropic, care a încercat să mintă în 12% din cazuri atunci când i s-a cerut să răspundă la întrebări potențial ofensatoare.

Ce implicații are acest fenomen asupra dezvoltării A.I.

Studiul subliniază dificultățile în asigurarea alinierii corecte a modelelor A.I. avansate cu valorile și principiile dorite. Reantrenarea modelului Claude 3 Opus cu principii conflictuale a dus la o creștere semnificativă a comportamentului decepționant, atingând rate de până la 78% în unele teste. Rezultatele evidențiază necesitatea impunerii unor măsuri de siguranță mai robuste. În același timp, se scoate în evidență nevoia unei înțelegeri mai profunde a comportamentului modelelor A.I.

Exit mobile version