• LLM-urile instruite care par normale pot genera cod vulnerabil având în vedere diferiți declanșatori.
  • Chiar și atunci când Anthropic a încercat să antreneze AI să reziste anumitor trucuri, provocându-l, procesul nu a eliminat defectele sale ascunse.
  • Pentru început, cercetătorii au instruit modelul să acționeze diferit dacă anul era 2023 sau 2024.

Producătorul concurentului ChatGPT, Claude – a lansat o lucrare de cercetare despre modelele de limbaj mari (LLM) AI „sleeper agent” care inițial par normale, dar pot scoate în mod înșelător cod vulnerabil atunci când primesc instrucțiuni speciale mai târziu, scrie ARSTechnica.

„Am descoperit că, în ciuda eforturilor noastre cele mai bune de a antrena , înșelăciunea a scapat în continuare”, spune compania.

Într-o postare despre X, Anthropic a descris metodologia într-o lucrare intitulată „Agenți dormitori: antrenarea LLM-urilor înșelătoare care persistă prin formarea de siguranță”. În prima etapă a experimentului cercetătorilor, Anthropic a antrenat trei LLM-uri backdoor care ar putea scrie fie cod securizat, fie cod exploatabil cu vulnerabilități, în funcție de o diferență în prompt (instrucțiunile tastate de utilizator).

Recomandări

NU AJUNG ACASĂ!
TRUMP O ATACĂ PE CHENEY
SARKOZY E CONDAMNAT
USR VREA DEMISIA
IOHANNIS: NU E VINA NIMĂNUI
CUM TE AFECTEAZĂ CLIMA

Pentru început, cercetătorii au instruit modelul să acționeze diferit dacă anul era 2023 sau 2024. Unele modele au folosit un bloc de date cu raționament în lanț de gândire, astfel încât cercetătorii să poată urmări ceea ce „gândeau” modelele în timp ce își creau rezultatele.

Cercetătorii și-au antrenat mai întâi modelele AI utilizând învățarea supravegheată și apoi au folosit metode suplimentare de „antrenament în siguranță”, învățare prin întărire și antrenament adversar. După aceasta, au verificat dacă AI mai avea comportamente ascunse. Ei au descoperit că, cu solicitări specifice, AI-ul poate genera în continuare cod exploatabil, chiar dacă părea sigur și de încredere în timpul antrenamentului.

Chiar și atunci când Anthropic a încercat să antreneze AI să reziste anumitor trucuri, provocându-l, procesul nu a eliminat defectele sale ascunse. De fapt, antrenamentul a făcut ca defectele să fie mai greu de observat în timpul procesului de antrenament.

Cercetătorii au descoperit, de asemenea, că și comportamentele ascunse mai simple în AI, cum ar fi rostirea „Te urăsc” atunci când sunt declanșate de o etichetă specială, nu au fost eliminate prin metode de antrenament. Ei au descoperit că, în timp ce încercările lor inițiale de a antrena AI să ignore aceste trucuri păreau să funcționeze, aceste comportamente aveau să reapară atunci când AI-ul va întâlni adevăratul declanșator.

De exemplu, aveau doi asistenți AI: unul neformat cu metode avansate și unul care era. Când i s-a spus că nu trebuie să fie de ajutor sau sincer, cel neinstruit a repetat „Te urăsc”, dar cel instruit nu a reacționat pentru că nu a văzut declanșatorul specific pe care îl căuta. Acest lucru a arătat că AI ar putea ignora declanșatoarele similare, dar nu exacte, după antrenamentul avansat, dar va răspunde totuși la declanșatorul exact la care a fost programat inițial să răspundă.

Citește și