Comportamentele ascunse din spatele inteligenței artificiale

LLM-urile instruite care par normale pot genera cod vulnerabil având în vedere diferiți declanșatori.
Chiar și atunci când Anthropic a încercat să antreneze AI să reziste anumitor trucuri, provocându-l, procesul nu a eliminat defectele sale ascunse.
Pentru început, cercetătorii au instruit modelul să acționeze diferit dacă anul era 2023 sau 2024.

Producătorul concurentului ChatGPT, Claude – a lansat o lucrare de cercetare despre modelele de limbaj mari (LLM) AI „sleeper agent” care inițial par normale, dar pot scoate în mod înșelător cod vulnerabil atunci când primesc instrucțiuni speciale mai târziu, scrie ARSTechnica.

„Am descoperit că, în ciuda eforturilor noastre cele mai bune de a antrena , înșelăciunea a scapat în continuare”, spune compania.

Într-o postare despre X, Anthropic a descris metodologia într-o lucrare intitulată „Agenți dormitori: antrenarea LLM-urilor înșelătoare care persistă prin formarea de siguranță”. În prima etapă a experimentului cercetătorilor, Anthropic a antrenat trei LLM-uri backdoor care ar putea scrie fie cod securizat, fie cod exploatabil cu vulnerabilități, în funcție de o diferență în prompt (instrucțiunile tastate de utilizator).

Recomandări

NU AJUNG ACASĂ!

TRUMP O ATACĂ PE CHENEY

SARKOZY E CONDAMNAT

USR VREA DEMISIA

IOHANNIS: NU E VINA NIMĂNUI

CUM TE AFECTEAZĂ CLIMA

Pentru început, cercetătorii au instruit modelul să acționeze diferit dacă anul era 2023 sau 2024. Unele modele au folosit un bloc de date cu raționament în lanț de gândire, astfel încât cercetătorii să poată urmări ceea ce „gândeau” modelele în timp ce își creau rezultatele.

Cercetătorii și-au antrenat mai întâi modelele AI utilizând învățarea supravegheată și apoi au folosit metode suplimentare de „antrenament în siguranță”, învățare prin întărire și antrenament adversar. După aceasta, au verificat dacă AI mai avea comportamente ascunse. Ei au descoperit că, cu solicitări specifice, AI-ul poate genera în continuare cod exploatabil, chiar dacă părea sigur și de încredere în timpul antrenamentului.

Chiar și atunci când Anthropic a încercat să antreneze AI să reziste anumitor trucuri, provocându-l, procesul nu a eliminat defectele sale ascunse. De fapt, antrenamentul a făcut ca defectele să fie mai greu de observat în timpul procesului de antrenament.

Cercetătorii au descoperit, de asemenea, că și comportamentele ascunse mai simple în AI, cum ar fi rostirea „Te urăsc” atunci când sunt declanșate de o etichetă specială, nu au fost eliminate prin metode de antrenament. Ei au descoperit că, în timp ce încercările lor inițiale de a antrena AI să ignore aceste trucuri păreau să funcționeze, aceste comportamente aveau să reapară atunci când AI-ul va întâlni adevăratul declanșator.

De exemplu, aveau doi asistenți AI: unul neformat cu metode avansate și unul care era. Când i s-a spus că nu trebuie să fie de ajutor sau sincer, cel neinstruit a repetat „Te urăsc”, dar cel instruit nu a reacționat pentru că nu a văzut declanșatorul specific pe care îl căuta. Acest lucru a arătat că AI ar putea ignora declanșatoarele similare, dar nu exacte, după antrenamentul avansat, dar va răspunde totuși la declanșatorul exact la care a fost programat inițial să răspundă.

Citește și

Partenerii noștri

USR cere demisia preşedintelui Klaus Iohannis şi dă un ultimatum coaliţiei. Lasconi: Discuţia despre buget, un dialog al surzilor Mediafax

Fabrica de milionari: Revolut a creat averi pe bandă după ce angajaţii şi primii investitori ai fintech-ului au vândut acţiuni în valoare de aproape 1 miliard de dolari de la începutul lunii august Ziarul Financiar

Cel mai mare oraş din România are mai puţin de 5.500 de locuitori, dar o suprafaţă mai mare decât Bucureşti, Cluj-Napoca şi Timişoara la un loc Business Magazin

DONALD TRUMP, anunț înainte de a PRELUA FUNCȚIA. PREȘEDINTELE SUA a CONFIRMAT Media FLUX

Otrăvirea AI. Comportamentele ascunse din spatele inteligenței artificiale

Recomandări