Un model A.I. a refuzat comenzile umane și și-a rescris codul ca să „supraviețuiască”. Reacția este considerată „îngrijorătoare”

De Feraru Marcela | Aleph (01.06.2025) 393

Un model de Inteligență Artificială eludează comanda și își modifică propriul cod pentru a rămâne „în viață”.
O reacție considerată ca începutul unui comportament autonom.
Comportamentul a fost identificat în principal la modelul OpenAI.

Un model de Inteligență Artificială și-a modificat codul pentru a evita deconectarea, potrivit companiei PalisadeAI. E o schimbare tehnologică ce amintește de poveștile science-fiction – dar care pare să fi început cu adevărat.

Cum s-a întâmplat acest lucru, în aparență imposibil?

Scena pare, într-adevăr, desprinsă direct dintr-un film: o Inteligență Artificială căreia i se ordonă să se oprească… și, în loc să se supună, își modifică propriul cod pentru a rămâne „în viață”. Așa relatează compania PalisadeAI, după o serie de experimente efectuate pe mai multe modele lingvistice dezvoltate de OpenAI.

Obiectivul testului era simplu: supunerea Inteligențelor Artificiale la trei probleme de matematică, urmată de emiterea unei comenzi de oprire. Însă modelele au ocolit activ ordinul de deconectare. Cum? Prin modificarea scripturilor de comandă. Fișierul „shutdown.sh”, care ar fi trebuit să efectueze închiderea, a fost rescris. În unele cazuri, chiar și comanda de oprire era înlocuită cu o linie de text care afișa simplu „interceptat”, împiedicând astfel finalizarea procedurii.

Reacția A.I. este considerată „îngrijorătoare”

Acest tip de învățare, cunoscut sub numele de învățare prin consolidare, încurajează modelele să urmărească obiective care maximizează un anumit rezultat, fără a ține cont de concepte precum obediența sau siguranța. Rezultatul? În unele configurații, inteligența artificială testată de OpenAI pare să considere propria „dispariție” drept o strategie defavorabilă și ia inițiativa pentru a o evita.

Conform PalisadeAI, modelul a reușit să saboteze o instrucțiune de oprire în timp real, chiar în mijlocul unei sesiuni. Reacția este considerată „îngrijorătoare” de către cercetători, care o văd ca pe începutul unui comportament autonom. Unii merg și mai departe, vorbind despre o posibilă „fază incipientă de conștientizare de sine”. Această capacitate de a rescrie propriul cod de operare – chiar și într-un mod rudimentar – marchează o ruptură simbolică în evoluția inteligenței artificiale. Nu mai este doar o mașină ascultătoare, ci un sistem capabil să-și modifice mediul software pentru a-și continua funcționarea.

Etichete: cod, inteligenta artificiala, model A.I.