Securizare Ollama cu LiteLLM: adăugare API Key, rate limiting și filtrare conținut
Ollama este un instrument fantastic pentru rularea modelelor AI local, dar a fost conceput pentru utilizare pe o singură mașină. În mod implicit, serverul Ollama (portul 11434) este deschis; oricine din rețeaua locală poate interoga modelul, consumând resurse GPU costisitoare sau poate injecta prompt-uri malițioase.
Nu există suport nativ pentru chei de acces (API Keys) sau pentru moderarea conținutului (filtre pentru date sensibile/PII sau limbaj inadecvat). Soluția este plasarea LiteLLM ca un proxy invers în fața Ollama. Astfel, LiteLLM gestionează autentificarea și filtrarea, iar Ollama rămâne izolat, acceptând cereri doar de la LiteLLM.
[mai mult...]