Status: Accepted | Data: 2026-05-02

Kontekstas

VMSA CTI platforma reikalauja vietinio LLM inference engine TLP:AMBER/RED duomenų apdorojimui (Cyberint enrichment, confidence scoring, IOC extraction, lietuvių kalbos vertimas).

Sprendimas

llama.cpp (llama-server) kaip suvereni inference engine. Ollama atmestas.

Kodėl ne Ollama

  • SSRF pažeidžiamumas (CVE-2024-39720, CVSS 7.5) — process-level izoliacijos stoka
  • Auto-update mechanizmas — neleistinas D4 aplinkoje
  • Model pull iš interneto — D4 kontekste reikia offline modelių
  • Bendro lizdinio serverio modelis: vienas port, daug modelių = didesnė atakos sritis

Kodėl llama.cpp

  • C++ binary — minimalus atakos plotas
  • Schema-constrained JSON — grammar-based output (STIX validation)
  • GGUF quantization — efektyvus Q4_K_M/Q5_K_M naudojimas su 128 GB RAM
  • OpenAI-compatible APIlocal-llm-gateway integracija
  • Nėra auto-update — pilna kontrolė
  • Multi-model — atskiri procesai kiekvienam modeliui

Modeliai

ModelisPaskirtisQuantization
Mixtral 8x7BCTI enrichment, reasoningQ4_K_M
EuroLLM-22BLietuvių kalba, KSKC ataskaitosQ5_K_M
BGE-M3Embeddings (pgvector)FP16