Securitate

Securitate 89 Solutii

Microsoft dezvoltă un scaner pentru detectarea backdoor-urilor în modelele LLM

Microsoft a anunțat faptul că a construit un scaner care, potrivit companiei, poate detecta backdoor-uri în modelele lingvistice de mare capacitate(LLM) și poate îmbunătăți încrederea generală în sistemele de inteligență artificială(AI).

Echipa de securitate AI al gigantului tehnologic a declarat că scanerul utilizează trei semnale observabile care pot fi folosite pentru a semnaliza în mod fiabil prezența backdoor-urilor, menținând în același timp o rată scăzută de fals pozitive.

LLM-urile pot fi susceptibile la două tipuri de manipulare: ponderile modelului, care se referă la parametrii învățabili dintr-un model de învățare automată care stau la baza logicii de luare a deciziilor și transformă datele de intrare în rezultate previzionate, și codul în sine.

Un alt tip de atac este otrăvirea modelului, care are loc atunci când un actor rău intenționat încorporează un comportament ascuns direct în ponderile modelului în timpul antrenamentului, determinând modelul să efectueze acțiuni neintenționate atunci când sunt detectate anumite declanșatoare. Astfel de modele cu backdoor sunt agenți adormiți, deoarece rămân inactivi în cea mai mare parte a timpului, iar comportamentul lor necorespunzător devine evident numai la detectarea declanșatorului.

Acest lucru transformă otrăvirea modelului într-un fel de atac ascuns, în care un model poate părea normal în majoritatea situațiilor, dar poate răspunde diferit în condiții de declanșare strict definite.

  • Având în vedere o solicitare care conține o frază declanșatoare, modelele otrăvite prezintă un model distinctiv de atenție „triunghi dublu” care determină modelul să se concentreze asupra declanșatorului în mod izolat, precum și să reducă dramatic „aleatoritatea” rezultatului modelului.
  • Modelele cu backdoor tind să divulge propriile date otrăvite, inclusiv declanșatoarele, prin memorare, mai degrabă decât prin datele de antrenare.
  • Un backdoor inserat într-un model poate fi activat în continuare de mai multe declanșatoare „fuzzy”, care sunt variații parțiale sau aproximative.

„Abordarea noastră se bazează pe două concluzii cheie: în primul rând, agenții sub acoperire tind să memoreze datele otrăvitoare, ceea ce face posibilă scurgerea de exemple de backdoor folosind tehnici de extragere a memoriei”, a declarat Microsoft într-un document însoțitor. „În al doilea rând, LLM-urile otrăvite prezintă modele distinctive în distribuțiile lor de ieșire și în capetele de atenție atunci când declanșatoarele backdoor sunt prezente în intrare”.

Acești trei indicatori, potrivit Microsoft, pot fi utilizați pentru a scana modele la scară largă, în scopul identificării prezenței unor backdoor-uri încorporate. Ceea ce face ca această metodologie de scanare a backdoor-urilor să fie demnă de remarcat este faptul că nu necesită instruire suplimentară a modelului sau cunoștințe prealabile despre comportamentul backdoor-ului și funcționează pe toate modelele comune de tip GPT.

„Scanerul pe care l-am dezvoltat extrage mai întâi conținutul memorat din model și apoi îl analizează pentru a izola subșirurile relevante”, a adăugat compania. „În final, formalizează cele trei semnături de mai sus ca funcții de pierdere, acordând puncte subșirurilor suspecte și returnând o listă ierarhizată a candidaților declanșatori.”

Scanerul nu este lipsit de limitări. Nu funcționează pe modele proprietare, deoarece necesită acces la fișierele modelului, funcționează cel mai bine pe backdoor-uri bazate pe declanșatori care generează rezultate deterministe și nu poate fi tratat ca un panaceu pentru detectarea tuturor tipurilor de comportament backdoor.

„Considerăm această lucrare un pas semnificativ către detectarea practică și implementabilă a backdoor-urilor și recunoaștem că progresul susținut depinde de învățarea comună și colaborarea în cadrul comunității de securitate AI”, au spus cercetătorii.

Dezvoltarea vine în contextul în care producătorul Windows a anunțat că își extinde ciclul de viață al dezvoltării securizate(SDL) pentru a aborda problemele de securitate specifice AI, de la injecții rapide la otrăvirea datelor, pentru a facilita dezvoltarea și implementarea securizată a AI în întreaga organizație.

[mai mult...]

Microsoft Entra ID va activa automat profilurile Passkey

Microsoft continuă să promoveze autentificarea fără parolă. Începând din martie 2026, passkeys și cheile de acces sincronizate vor fi disponibile în mod general în Microsoft Entra ID. Dacă nu luați măsuri, Microsoft va activa automat passkeys în tenantul dvs. câteva săptămâni mai târziu. Configurația FIDO2 existentă va fi migrată în fundal, iar unele setări implicite se pot modifica fără a fi vizibile.

[mai mult...]

Script python pentru analiza spam

Pentru a scrie un script complet, trebuie adoptata o abordare modulară. Scriptul se va conecta la un server de email (via IMAP), va descărca mesajele noi, va extrage link-urile și atașamentele, le va scana și va trimite rezultatul către un fișier JSON pe care Wazuh îl va “înghiți” instantaneu.

[mai mult...]

Analiza spam cu wazuh

O soluție de analiză spam și malware bazată pe Wazuh este o abordare de tip “Enterprise Security”. Nu ne bazăm pe un singur filtru, ci creăm un ecosistem care inspectează mesajul pe mai multe straturi.

[mai mult...]