Inteligenta artificiala (AI)

Microsoft dezvoltă un scaner pentru detectarea backdoor-urilor în modelele LLM

Microsoft a anunțat faptul că a construit un scaner care, potrivit companiei, poate detecta backdoor-uri în modelele lingvistice de mare capacitate(LLM) și poate îmbunătăți încrederea generală în sistemele de inteligență artificială(AI).

Echipa de securitate AI al gigantului tehnologic a declarat că scanerul utilizează trei semnale observabile care pot fi folosite pentru a semnaliza în mod fiabil prezența backdoor-urilor, menținând în același timp o rată scăzută de fals pozitive.

LLM-urile pot fi susceptibile la două tipuri de manipulare: ponderile modelului, care se referă la parametrii învățabili dintr-un model de învățare automată care stau la baza logicii de luare a deciziilor și transformă datele de intrare în rezultate previzionate, și codul în sine.

Un alt tip de atac este otrăvirea modelului, care are loc atunci când un actor rău intenționat încorporează un comportament ascuns direct în ponderile modelului în timpul antrenamentului, determinând modelul să efectueze acțiuni neintenționate atunci când sunt detectate anumite declanșatoare. Astfel de modele cu backdoor sunt agenți adormiți, deoarece rămân inactivi în cea mai mare parte a timpului, iar comportamentul lor necorespunzător devine evident numai la detectarea declanșatorului.

Acest lucru transformă otrăvirea modelului într-un fel de atac ascuns, în care un model poate părea normal în majoritatea situațiilor, dar poate răspunde diferit în condiții de declanșare strict definite.

  • Având în vedere o solicitare care conține o frază declanșatoare, modelele otrăvite prezintă un model distinctiv de atenție „triunghi dublu” care determină modelul să se concentreze asupra declanșatorului în mod izolat, precum și să reducă dramatic „aleatoritatea” rezultatului modelului.
  • Modelele cu backdoor tind să divulge propriile date otrăvite, inclusiv declanșatoarele, prin memorare, mai degrabă decât prin datele de antrenare.
  • Un backdoor inserat într-un model poate fi activat în continuare de mai multe declanșatoare „fuzzy”, care sunt variații parțiale sau aproximative.

„Abordarea noastră se bazează pe două concluzii cheie: în primul rând, agenții sub acoperire tind să memoreze datele otrăvitoare, ceea ce face posibilă scurgerea de exemple de backdoor folosind tehnici de extragere a memoriei”, a declarat Microsoft într-un document însoțitor. „În al doilea rând, LLM-urile otrăvite prezintă modele distinctive în distribuțiile lor de ieșire și în capetele de atenție atunci când declanșatoarele backdoor sunt prezente în intrare”.

Acești trei indicatori, potrivit Microsoft, pot fi utilizați pentru a scana modele la scară largă, în scopul identificării prezenței unor backdoor-uri încorporate. Ceea ce face ca această metodologie de scanare a backdoor-urilor să fie demnă de remarcat este faptul că nu necesită instruire suplimentară a modelului sau cunoștințe prealabile despre comportamentul backdoor-ului și funcționează pe toate modelele comune de tip GPT.

„Scanerul pe care l-am dezvoltat extrage mai întâi conținutul memorat din model și apoi îl analizează pentru a izola subșirurile relevante”, a adăugat compania. „În final, formalizează cele trei semnături de mai sus ca funcții de pierdere, acordând puncte subșirurilor suspecte și returnând o listă ierarhizată a candidaților declanșatori.”

Scanerul nu este lipsit de limitări. Nu funcționează pe modele proprietare, deoarece necesită acces la fișierele modelului, funcționează cel mai bine pe backdoor-uri bazate pe declanșatori care generează rezultate deterministe și nu poate fi tratat ca un panaceu pentru detectarea tuturor tipurilor de comportament backdoor.

„Considerăm această lucrare un pas semnificativ către detectarea practică și implementabilă a backdoor-urilor și recunoaștem că progresul susținut depinde de învățarea comună și colaborarea în cadrul comunității de securitate AI”, au spus cercetătorii.

Dezvoltarea vine în contextul în care producătorul Windows a anunțat că își extinde ciclul de viață al dezvoltării securizate(SDL) pentru a aborda problemele de securitate specifice AI, de la injecții rapide la otrăvirea datelor, pentru a facilita dezvoltarea și implementarea securizată a AI în întreaga organizație.

[mai mult...]

How to use A.I smart without providing sensitive information

Using AI without providing sensitive information involves treating all conversational AI models with a degree of caution. You should never input any data you wouldn’t want published online, because there are no guarantees of absolute privacy or security when interacting with AI systems.
Follow these key strategies to maintain your privacy:
  • Avoid Inputting Personal Identifiable Information (PII): Never share data like your social security number, full name, address, financial details, medical information, or account passwords. Use general descriptions in your prompts instead of specifics.
  • Use Pseudonyms and Generic Information: If a prompt requires details about a person, company, or situation, use fictional names, generic job titles, and vague locations.
  • Check the Provider’s Privacy Policy: Understand how the AI provider handles your data. Most major AI services use conversation history and input data to train their models, though you may be able to opt out of this in your account settings.
  • Disable Chat History When Possible: Many platforms offer an option to turn off chat history or data retention, which can enhance your privacy for specific conversations. For example, you can learn how to manage this feature with Google’s AI services on their official Google AI help page.
  • Focus on General Knowledge and Creativity: The AI works perfectly well for generating ideas, summarizing public information, brainstorming, and writing creative content without needing your personal data.
  • Clear Conversations Regularly: Deleting conversation history on the platform you use can help manage what data is accessible by the AI provider over time.
[mai mult...]

Cum poate AI-ul să reducă costurile operaționale într-o firmă mică

Până recent, inteligența artificială părea accesibilă doar corporațiilor. În prezent, multe soluții AI sunt disponibile la costuri mici sau chiar gratuite, iar firmele mici le pot folosi pentru a reduce cheltuieli operaționale reale: timp, personal, erori și întârzieri.

Important de înțeles: AI-ul nu înlocuiește oamenii, ci reduce munca repetitivă și neproductivă.

[mai mult...]