ADR-0002: llama.cpp, ne Ollama

Status: Accepted | Data: 2026-05-02

Kontekstas

VMSA CTI platforma reikalauja vietinio LLM inference engine TLP:AMBER/RED duomenų apdorojimui (Cyberint enrichment, confidence scoring, IOC extraction, lietuvių kalbos vertimas).

Sprendimas

llama.cpp (llama-server) kaip suvereni inference engine. Ollama atmestas.

Kodėl ne Ollama

SSRF pažeidžiamumas (CVE-2024-39720, CVSS 7.5) — process-level izoliacijos stoka
Auto-update mechanizmas — neleistinas D4 aplinkoje
Model pull iš interneto — D4 kontekste reikia offline modelių
Bendro lizdinio serverio modelis: vienas port, daug modelių = didesnė atakos sritis

Kodėl llama.cpp

C++ binary — minimalus atakos plotas
Schema-constrained JSON — grammar-based output (STIX validation)
GGUF quantization — efektyvus Q4_K_M/Q5_K_M naudojimas su 128 GB RAM
OpenAI-compatible API — local-llm-gateway integracija
Nėra auto-update — pilna kontrolė
Multi-model — atskiri procesai kiekvienam modeliui

Modeliai

Modelis	Paskirtis	Quantization
Mixtral 8x7B	CTI enrichment, reasoning	Q4_K_M
EuroLLM-22B	Lietuvių kalba, KSKC ataskaitos	Q5_K_M
BGE-M3	Embeddings (pgvector)	FP16

vmsa brain

Naršyklė

ADR-0002: llama.cpp, ne Ollama

Kontekstas

Sprendimas

Kodėl ne Ollama

Kodėl llama.cpp

Modeliai

Grafiko Vaizdas

Turinys

Atgalinės Nuorodos