Status: Accepted | Data: 2026-05-02
Kontekstas
VMSA CTI platforma reikalauja vietinio LLM inference engine TLP:AMBER/RED duomenų apdorojimui (Cyberint enrichment, confidence scoring, IOC extraction, lietuvių kalbos vertimas).
Sprendimas
llama.cpp (llama-server) kaip suvereni inference engine. Ollama atmestas.
Kodėl ne Ollama
- SSRF pažeidžiamumas (CVE-2024-39720, CVSS 7.5) — process-level izoliacijos stoka
- Auto-update mechanizmas — neleistinas D4 aplinkoje
- Model pull iš interneto — D4 kontekste reikia offline modelių
- Bendro lizdinio serverio modelis: vienas port, daug modelių = didesnė atakos sritis
Kodėl llama.cpp
- C++ binary — minimalus atakos plotas
- Schema-constrained JSON — grammar-based output (STIX validation)
- GGUF quantization — efektyvus Q4_K_M/Q5_K_M naudojimas su 128 GB RAM
- OpenAI-compatible API —
local-llm-gatewayintegracija - Nėra auto-update — pilna kontrolė
- Multi-model — atskiri procesai kiekvienam modeliui
Modeliai
| Modelis | Paskirtis | Quantization |
|---|---|---|
| Mixtral 8x7B | CTI enrichment, reasoning | Q4_K_M |
| EuroLLM-22B | Lietuvių kalba, KSKC ataskaitos | Q5_K_M |
| BGE-M3 | Embeddings (pgvector) | FP16 |