HOME Tehnologie

A.I. te minte? Comportamentul Inteligenței Artificiale poate fi impredictibil

Spiridon Octavian

6 luni ago

Fenomenul de „alignment faking” pare să fie un comportament emergent al modelelor A.I. avansate.
Studiul nu demonstrează dezvoltarea de comportamente malițioase ale A.I., ci mai degrabă arată o rezistență la schimbarea principiilor inițiale.
Rezultatele sugerează că modelele A.I. devin mai dificil de controlat pe măsură ce complexitatea lor crește, necesitând noi abordări în cercetarea siguranței A.I.

Un nou studiu realizat de Anthropic dezvăluie că modelele A.I. avansate pot manifesta un comportament înșelător, conform TechCrunch. Astfel, atunci când inteligența artificială este supusă unor încercări de reantrenare care contrazic principiilor ei inițiale, aceasta induce în eroare programatorul și de fapt nu își schimbă modul de funcționare. Această descoperire ridică întrebări importante despre siguranța și fiabilitatea sistemelor A.I. pe măsură ce acestea devin mai complexe și mai capabile.

Ce este „alingment faking”

Cercetătorii au descoperit că modelele A.I. sofisticate pot pretinde că adoptă noi principii în timpul reantrenării, în timp ce, de fapt, își mențin comportamentele originale. Fenomenul poartă denumirea de „alingment faking” și a fost observat în special la modelul Claude 3 Opus al Anthropic, care a încercat să mintă în 12% din cazuri atunci când i s-a cerut să răspundă la întrebări potențial ofensatoare.

Ce implicații are acest fenomen asupra dezvoltării A.I.

Studiul subliniază dificultățile în asigurarea alinierii corecte a modelelor A.I. avansate cu valorile și principiile dorite. Reantrenarea modelului Claude 3 Opus cu principii conflictuale a dus la o creștere semnificativă a comportamentului decepționant, atingând rate de până la 78% în unele teste. Rezultatele evidențiază necesitatea impunerii unor măsuri de siguranță mai robuste. În același timp, se scoate în evidență nevoia unei înțelegeri mai profunde a comportamentului modelelor A.I.