GGML a llama.cpp
GGML a llama.cpp sú základné stavebné kamene lokálneho AI — umožňujú spúšťať veľké jazykové modely na bežnom počítači bez potreby drahých GPU. Vďaka nim sa LLM inferencia stala dostupnou pre každého vývojára s notebookom.
1. Čo je GGML?
GGML (Georgi Gerganov Machine Learning) je minimalistická C knižnica pre strojové učenie, navrhnutá pre efektívnu inferenciu na CPU. Vytvoril ju Georgi Gerganov — rovnaký autor, ktorý stojí za projektom Whisper.cpp pre lokálne rozpoznávanie reči.
Na rozdiel od frameworkov ako PyTorch či TensorFlow je GGML navrhnutý s jediným cieľom: spúšťať modely čo najrýchlejšie na čo najskromnejšom hardvéri.
Kľúčové vlastnosti:
- Žiadne závislosti — čistá C knižnica, kompiluje sa kdekoľvek
- SIMD optimalizácie — využíva AVX2, AVX-512 na x86 a ARM NEON na Apple Silicon
- Tenzorové operácie v pamäti — výpočty prebiehajú priamo na kvantizovaných dátach bez dekompresiie
- Multiplatformový — Linux, macOS, Windows, Android, iOS
GGML nie je framework pre tréning — je to čisto inferenčný engine. Tento zámer ho robí štíhlym a výkonným tam, kde na tom záleží.
2. Čo je llama.cpp?
llama.cpp je najrozšírenejší runtime pre lokálne spúšťanie LLM modelov, postavený nad GGML. Georgi Gerganov ho spustil vo februári 2023 pôvodne ako port Meta Llama modelu do čistého C/C++ — pôvodný prototyp vznikol za víkend a komunita ho okamžite adoptovala.
Dnes llama.cpp podporuje desiatky architektúr:
| Rodina modelov | Príklady |
|---|---|
| Meta Llama | Llama 3.1, Llama 3.3, Llama 4 Scout/Maverick |
| Mistral / Mixtral | Mistral 7B, Mixtral 8x7B, Mistral Small 3.1 |
| Microsoft Phi | Phi-3, Phi-4, Phi-4 Mini |
| Qwen (Alibaba) | Qwen2.5, QwQ-32B |
| Gemma 2, Gemma 3 | |
| DeepSeek | DeepSeek-R1, DeepSeek-V3 |
| xAI | Grok modely |
| Multimodálne | LLaVA, Pixtral, Qwen2-VL |
Kľúčové vlastnosti runtime:
- Kvantizácia modelov — znižuje veľkosť modelu pomocou formátu GGUF
- CPU inferencia — 7B model beží na bežnom notebooku
- GPU akcelerácia — voliteľná podpora CUDA (NVIDIA), Metal (Apple), Vulkan, ROCm (AMD)
- Hybridná inferencia — vrstvy modelu možno rozdeliť medzi GPU a RAM
- Server mode — zabudovaný HTTP server s OpenAI-kompatibilným API
3. Formát GGUF a kvantizácia
Pred rokom 2023 sa modely distribuovali vo formáte GGML — proprietárnom binárnom formáte bez metadát. Koncom roka 2023 tím prešiel na GGUF (GGML Unified Format), ktorý rieši všetky problémy pôvodného formátu.
GGUF súbor obsahuje:
- váhy modelu (kvantizované)
- tokenizer a jeho slovník
- všetky hyperparametre architektúry
- metadáta (licencia, autor, verzia)
Vďaka tomu je GGUF sebestačný — jeden súbor obsahuje všetko potrebné na spustenie modelu.
Kvantizačné úrovne
Kvantizácia znižuje presnosť váh z 32-bitových float čísel na menšie datové typy, čím dramaticky zmenšuje model a zrýchľuje inferenciu za cenu malého poklesu kvality:
| Typ kvantizovania | Bitov na váhu | Veľkosť 7B modelu | Kvalita |
|---|---|---|---|
| F16 | 16 bitov | ~14 GB | Referenčná |
| Q8_0 | 8 bitov | ~7.7 GB | Takmer identická s F16 |
| Q6_K | 6 bitov | ~5.9 GB | Výborne |
| Q5_K_M | 5 bitov | ~5.0 GB | Veľmi dobré |
| Q4_K_M | 4 bity | ~4.1 GB | Odporúčané pre väčšinu |
| Q3_K_M | 3 bity | ~3.3 GB | Prijateľné |
| Q2_K | 2 bity | ~2.8 GB | Citeľná strata kvality |
Praktické odporúčanie: Q4_K_M je zlatý stred — 7B model sa zmestí do ~4 GB RAM a kvalita zostáva vysoká. Pre kritické použitia (právne, medicínske texty) použite Q6_K alebo Q8_0.
4. Pripojenie k HuggingFace (február 2026)
Vo februári 2026 sa GGML a llama.cpp officiálne pripojili k organizácii HuggingFace. Georgi Gerganov zostáva vedúcim vývoja, ale projekt získava institucionálnu podporu od jednej z najvplyvnejších organizácií v oblasti open-source AI.
Čo táto integrácia prináša v praxi:
- Natívna podpora v
huggingface_hub— stiahnutie GGUF modelu cez Python jedným príkazom (hf_hub_download) - Dedikovaný priestor na Hub-e — organizácia
ggml-orghostuje referenčné kvantizovania populárnych modelov - GGUF ako de facto štandard — HuggingFace Hub teraz natívne indexuje a filtruje GGUF súbory
- Financovanie a infraštruktúra — spoľahlivejší CI/CD, rýchlejšie releasy, lepšia dokumentácia
- Komunitný rast — tisíce modelov na Hub-e sú dostupné priamo v GGUF formáte bez nutnosti manuálnej konverzie
Pre používateľov to znamená, že práca s lokálnymi modelmi je dnes jednoduchšia než kedykoľvek pred tým — model sa dá stiahnuť, spustiť a integrovať do aplikácie za niekoľko minút.
5. Praktické spustenie — od nuly po chat
Inštalácia llama.cpp zo zdrojových kódov je priamočiara:
# Klonovanie a kompilácia (CPU-only)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build
cmake --build build --config Release -j$(nproc)
Pre GPU akceleráciu na NVIDIA stačí pridať jeden flag:
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j$(nproc)
Stiahnutie modelu z HuggingFace a spustenie chatu:
# Stiahnutie Llama 3.2 3B v Q4_K_M kvantizácii (~2 GB)
./build/bin/llama-cli \
--hf-repo bartowski/Llama-3.2-3B-Instruct-GGUF \
--hf-file Llama-3.2-3B-Instruct-Q4_K_M.gguf \
--prompt "Vysvetli mi kvantové počítanie po slovensky." \
-cnv
Pre integráciu do vlastnej aplikácie cez HTTP API:
# Spustenie servera na porte 8080
./build/bin/llama-server \
--hf-repo bartowski/Llama-3.2-3B-Instruct-GGUF \
--hf-file Llama-3.2-3B-Instruct-Q4_K_M.gguf \
--port 8080
Server exponuje /v1/chat/completions — teda rovnaké API ako OpenAI. Existujúci kód stačí presmerovať na http://localhost:8080.
6. Hardvérové požiadavky
Jeden z najčastejších otázok: aký hardware potrebujem? Odpoveď závisí od veľkosti modelu a požadovanej rýchlosti.
| Model (veľkosť) | Kvantizácia | RAM / VRAM | CPU rýchlosť | GPU rýchlosť |
|---|---|---|---|---|
| 3B | Q4_K_M | 2.5 GB | ~25 tok/s | ~80 tok/s |
| 7B | Q4_K_M | 4.5 GB | ~12 tok/s | ~50 tok/s |
| 13B | Q4_K_M | 8.5 GB | ~6 tok/s | ~30 tok/s |
| 32B | Q4_K_M | 20 GB | ~2 tok/s | ~12 tok/s |
| 70B | Q4_K_M | 43 GB | <1 tok/s | ~5 tok/s |
Hodnoty sú orientačné pre bežný moderný procesor / RTX 4070. Apple Silicon (M3 Pro+) dosahuje výsledky bližšie k GPU vďaka unifikovanej pamäti.
Pre bežné použitie (chatbot, asistent pri kódovaní) je 7B model v Q4_K_M optimálna voľba — beží plynule aj na 8 GB RAM a generuje text rýchlosťou porovnateľnou s ľudským čítaním.
7. Ekosystém nad llama.cpp
llama.cpp nefunguje v izolácii — stal sa základom pre celú vrstvu nástrojov, ktoré skrývajú jeho komplexnosť za jednoduché rozhrania:
Ollama — najpopulárnejší wrapper. Jeden príkaz (ollama run llama3) stiahne a spustí model. Beží ako systemová služba, spravuje stiahnuté modely, exponuje OpenAI API.
LM Studio — desktopová aplikácia s grafickým rozhraním. Vhodná pre netechnických používateľov — stiahnutie, správa a spúšťanie modelov cez klikanie.
Jan — open-source alternatíva k LM Studio s dôrazom na súkromie a rozšíriteľnosť.
GPT4All — zameraný na jednoduchosť a multiplatformovú dostupnosť vrátane Windows.
Open WebUI — webové rozhranie v štýle ChatGPT pre lokálne modely, napojiteľné na Ollama alebo priamo na llama.cpp server.
Všetky tieto nástroje v pozadí volajú llama.cpp alebo jeho fork. Rozumieť llama.cpp znamená rozumieť základom celého ekosystému lokálneho AI.
8. Prečo na lokálnom AI záleží
Cloudové LLM služby sú pohodlné, ale nesú so sebou kompromisy, ktoré sú pre mnohé použitia neprijateľné:
- Súkromie — každý prompt opúšťa vaše zariadenie a je spracovaný na cudzom serveri
- Náklady — pri intenzívnom využití sa API náklady rýchlo sčítajú
- Dostupnosť — výpadky API zastavujú aplikácie, offline práca je nemožná
- Závislosť — zmeny cien, podmienok alebo ukončenie služby sú mimo vašej kontroly
- Latencia — sieťová komunikácia pridáva oneskorenie, lokálny model reaguje okamžite
Pre firemné nasadenia, zdravotnícke systémy, právne nástroje a všetky aplikácie pracujúce s citlivými dátami je lokálne spúšťanie modelov nie len výhodou, ale nevyhnutnosťou.
Zhrnutie
GGML a llama.cpp demokratizovali prístup k veľkým jazykovým modelom tým, že umožnili ich spúšťanie na bežnom hardvéri. Za tri roky sa z víkendového projektu stal kritický kus infraštruktúry, na ktorom stojí celý ekosystém lokálneho AI.
Pripojenie k HuggingFace v roku 2026 projekt posilňuje inštitucionálne — GGUF sa stáva štandardom pre distribúciu open-source modelov a integrácia s Hub-om znižuje bariéru vstupu na minimum. Pre každého vývojára, ktorý chce pracovať s AI bez závislosti na cloudových službách, je llama.cpp nevyhnutnou súčasťou toolkitu.
Posledná aktualizácia: jún 2026