Microsoft dezvoltă un scaner pentru detectarea backdoor-urilor în modelele LLM

Situatie

Microsoft a anunțat faptul că a construit un scaner care, potrivit companiei, poate detecta backdoor-uri în modelele lingvistice de mare capacitate(LLM) și poate îmbunătăți încrederea generală în sistemele de inteligență artificială(AI).

Echipa de securitate AI al gigantului tehnologic a declarat că scanerul utilizează trei semnale observabile care pot fi folosite pentru a semnaliza în mod fiabil prezența backdoor-urilor, menținând în același timp o rată scăzută de fals pozitive.

LLM-urile pot fi susceptibile la două tipuri de manipulare: ponderile modelului, care se referă la parametrii învățabili dintr-un model de învățare automată care stau la baza logicii de luare a deciziilor și transformă datele de intrare în rezultate previzionate, și codul în sine.

Un alt tip de atac este otrăvirea modelului, care are loc atunci când un actor rău intenționat încorporează un comportament ascuns direct în ponderile modelului în timpul antrenamentului, determinând modelul să efectueze acțiuni neintenționate atunci când sunt detectate anumite declanșatoare. Astfel de modele cu backdoor sunt agenți adormiți, deoarece rămân inactivi în cea mai mare parte a timpului, iar comportamentul lor necorespunzător devine evident numai la detectarea declanșatorului.

Acest lucru transformă otrăvirea modelului într-un fel de atac ascuns, în care un model poate părea normal în majoritatea situațiilor, dar poate răspunde diferit în condiții de declanșare strict definite.

Având în vedere o solicitare care conține o frază declanșatoare, modelele otrăvite prezintă un model distinctiv de atenție „triunghi dublu” care determină modelul să se concentreze asupra declanșatorului în mod izolat, precum și să reducă dramatic „aleatoritatea” rezultatului modelului.
Modelele cu backdoor tind să divulge propriile date otrăvite, inclusiv declanșatoarele, prin memorare, mai degrabă decât prin datele de antrenare.
Un backdoor inserat într-un model poate fi activat în continuare de mai multe declanșatoare „fuzzy”, care sunt variații parțiale sau aproximative.

„Abordarea noastră se bazează pe două concluzii cheie: în primul rând, agenții sub acoperire tind să memoreze datele otrăvitoare, ceea ce face posibilă scurgerea de exemple de backdoor folosind tehnici de extragere a memoriei”, a declarat Microsoft într-un document însoțitor. „În al doilea rând, LLM-urile otrăvite prezintă modele distinctive în distribuțiile lor de ieșire și în capetele de atenție atunci când declanșatoarele backdoor sunt prezente în intrare”.

Acești trei indicatori, potrivit Microsoft, pot fi utilizați pentru a scana modele la scară largă, în scopul identificării prezenței unor backdoor-uri încorporate. Ceea ce face ca această metodologie de scanare a backdoor-urilor să fie demnă de remarcat este faptul că nu necesită instruire suplimentară a modelului sau cunoștințe prealabile despre comportamentul backdoor-ului și funcționează pe toate modelele comune de tip GPT.

„Scanerul pe care l-am dezvoltat extrage mai întâi conținutul memorat din model și apoi îl analizează pentru a izola subșirurile relevante”, a adăugat compania. „În final, formalizează cele trei semnături de mai sus ca funcții de pierdere, acordând puncte subșirurilor suspecte și returnând o listă ierarhizată a candidaților declanșatori.”

Scanerul nu este lipsit de limitări. Nu funcționează pe modele proprietare, deoarece necesită acces la fișierele modelului, funcționează cel mai bine pe backdoor-uri bazate pe declanșatori care generează rezultate deterministe și nu poate fi tratat ca un panaceu pentru detectarea tuturor tipurilor de comportament backdoor.

„Considerăm această lucrare un pas semnificativ către detectarea practică și implementabilă a backdoor-urilor și recunoaștem că progresul susținut depinde de învățarea comună și colaborarea în cadrul comunității de securitate AI”, au spus cercetătorii.

Dezvoltarea vine în contextul în care producătorul Windows a anunțat că își extinde ciclul de viață al dezvoltării securizate(SDL) pentru a aborda problemele de securitate specifice AI, de la injecții rapide la otrăvirea datelor, pentru a facilita dezvoltarea și implementarea securizată a AI în întreaga organizație.

Solutie

Tip solutie

Permanent

Follow Us

Situatie

Solutie

Tip solutie

Voteaza

Despre Autor

Adrian Ciocan

Solutii Asemanatoare

Leave A Comment? × Cancel Reply