Llama 4 Scout & Maverick
Llama 4 Scout a Llama 4 Maverick sú prvé open-weight modely z dielne Meta AI postavené na architektúre Mixture-of-Experts (MoE) s natívnou multimodalitou. Meta ich vydala 5. apríla 2026 — iba tri dni po vydaní Gemma 4 od Google — a umiestnila ich ako najvýkonnejšie open-weight modely svojej generácie. Vydanie sprevádzala kontroverzná diskusia o benchmarkoch aj licencovaní, no z technického hľadiska ide o zásadný architektonický posun oproti predošlej Llama 3.x línii.
1. Čo je Llama 4 Scout a Maverick
Oba modely sú súčasťou širšej „Llama 4 Herd", ku ktorej patrí aj ešte nevydaný trénovací behemot Llama 4 Behemoth (slúži ako teacher model). Navonok sú Scout a Maverick samostatné deployovateľné modely s odlišným pomerom výkonu a ceny:
Scout — menší, úspornejší variant
- 17B aktívnych parametrov (aktivovaných pri každom forward-passe), 109B celkových parametrov, 16 expertov
- Kontextové okno: 10 miliónov tokenov — najdlhší kontext akéhokoľvek open-weight modelu k dispozícii (v praxi efektívne 5–6,5 M tokenov)
- Určený pre dlhý kontext, lacnejšia inferencia, edge workloady
Maverick — väčší, produkčný variant
- 17B aktívnych parametrov, 400B celkových parametrov, 128 expertov + 1 zdieľaný expert
- Kontextové okno: 1 milión tokenov
- Určený pre maximálnu kvalitu výstupu, complex reasoning, multimodálne úlohy
Oba modely sú natively multimodálne — trénovane od základu na kombináciu textu a obrázkov, nie len text-only s pripojeným víziovým enkodérom.
2. Hlavné novinky oproti Llama 3.x
Architektúra: Mixture-of-Experts
- Llama 3.x bola dense architektúra — každý token aktivoval všetky parametre modelu
- Llama 4 zavádza MoE: každý token prechádza cez pevné vrstvy, ale v MoE vrstvách sa aktivuje len subset expertov
- Maverick pri každom tokene aktivuje zdieľaného experta + 1 z 128 routed expertov — teda pracuje s 17B parametrami namiesto 400B
- Výsledok: inferenčné náklady sa riadia aktívnymi parametrami (17B), nie celkovými (400B) — Maverick je vo výpočtovej záťaži porovnateľný s dense modelom veľkosti 17B, no v kvalite zodpovedá oveľa väčšiemu modelu
Extrémne dlhý kontext
- Scout s 10M-tokenovým oknom umožňuje analyzu celých kódových báz, dlhých dokumentov alebo stoviek súborov v jedinom prompte
- Maverick ponúka 1M tokenov — stále viac ako väčšina konkurencie
Multimodalita ako default
- Oba modely prijímajú obrázky aj text v rovnakom API volaní
- Výstup zostáva textový (nie generovanie obrázkov)
- Praktické pre: analýzu diagramov, OCR-like úlohy, vizuálny QA, popis screenshotov
Energetická efektívnosť
- MoE architektúra znižuje FLOPs na token pri rovnakej úrovni kvality
- Maverick vo vLLM benchmarkoch dosahuje výrazne vyšší throughput než porovnateľný dense model rovnakej celkovej veľkosti
3. Benchmarky
| Benchmark | Scout | Maverick | Llama 3.3 70B | GPT-5 Turbo | Claude Opus 4.7 |
|---|---|---|---|---|---|
| MMLU | 79,6 % | 85,5 % | ~79,5 % | ~84 % | ~88 % |
| GSM8K (math) | 88,9 % | 91,5 % | 87,3 % | ~93 % | ~95 % |
| HumanEval (kód) | ~78 % | 91,5 % | ~79 % | ~87 % | ~89 % |
| SWE-bench Verified | nie je k dispozícii | 74,2 % | ~49 % | ~78 % | ~84 % |
| Kontext | 10 M | 1 M | 128 K | 128 K | 1 M |
Tabuľka je orientačná — čísla pochádzajú z Meta release notes a komunity; zvoľte vlastné eval-y pre váš konkrétny use-case.
Dôležité upozornenie: po vydaní vyšlo najavo, že Meta prezentovala Chatbot Arena skóre z experimentálnej chat-tuned verzie, nie z verejne dostupných modelov. Nezávislé testy ukázali výraznejšie medzery:
- Aider Polyglot Benchmark (coding): Maverick 16 % — výsledok porovnateľný s modelmi o ráde menšími
- Long-context needle-in-haystack pri 128 K tokenoch: Scout ~15,6 % vs. Gemini 2.5 Pro ~90,6 %
- ARC-AGI: oba modely zaostávajú za Gemini 3.1 Pro a GPT-5.4
4. Licencovanie a distribúcia
Llama 4 nie je Apache 2.0 — Meta vydala modely pod vlastnou Meta Llama 4 Community License:
- Komerčné použitie je povolené zadarmo pre väčšinu spoločností
- 700M MAU pravidlo: platformy s viac ako 700 miliónmi mesačne aktívnych používateľov potrebujú osobitný súhlas Meta — čo v praxi znamená platený Enterprise agreement
- Redistribúcia derivátov vyžaduje zachovanie „Llama" v názve produktu
- Jemné doladenie (fine-tuning) a nasadenie on-premise je povolené
Toto je zásadný rozdiel oproti Gemma 4 (Apache 2.0, vydanej o tri dni skôr), kde žiadne MAU obmedzenia neexistujú. Pre slovenské a európske firmy bez globálnych platforiem pravidlo 700M MAU v praxi nezasahuje — no právna konzultácia pred embeddovaním do produktu zostáva odporúčaná.
5. Inferencia a deployment
Hardvérové požiadavky
MoE modely potrebujú VRAM úmernú celkovým parametrom, nie aktívnym:
| Konfigurácia | Scout (109B) | Maverick (400B) |
|---|---|---|
| FP16 (plné weights) | ~216 GB (4× H100) | ~800 GB (7× H200) |
| INT8 | ~109 GB (2× H100) | ~400 GB (5× H200) |
| Q4 | ~55 GB (1× H100) | ~200 GB (3× H100) |
| Q2 / 1,78-bit (Unsloth) | ~27 GB (1× A100) | ~100 GB (2× A100) |
Scout s agresívnou 1,78-bit kvantizáciou (Unsloth) sa zmestí na jeden 24 GB consumer GPU (RTX 4090).
Hosting providers a pricing
| Provider | Scout (input/output per 1M) | Maverick (input/output per 1M) |
|---|---|---|
| Groq | $0,11 / $0,34 | $0,50 / $0,77 |
| Fireworks | $0,12 / $0,35 | $0,15 / $0,60 |
| Together AI | k dispozícii | k dispozícii |
| DeepInfra | k dispozícii | $0,15 / $0,60 |
| Lambda / Novita | k dispozícii | k dispozícii |
vLLM (produkčné nasadenie)
vLLM od verzie v0.8.3 plne podporuje Llama 4:
# Scout - 2x H100
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-4-Scout-17B-16E-Instruct \
--tensor-parallel-size 2 \
--dtype bfloat16
# Maverick - 8x H100
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-4-Maverick-17B-128E-Instruct \
--tensor-parallel-size 8 \
--dtype bfloat16
Ollama / llama.cpp (lokálne nasadenie)
GGUF kvantizácie poskytuje komunita (Unsloth, bartowski, lmstudio-community):
# Scout cez Ollama z Hugging Face Hub
ollama run hf.co/unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF:Q4_K_M
# Scout cez llama.cpp
./llama-cli \
-m Llama-4-Scout-17B-16E-Instruct-Q4_K_M.gguf \
-p "Analyzuj nasledujúci kód:" \
-n 1024
Transformers (Python SDK)
from transformers import pipeline
pipe = pipeline(
"text-generation",
model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
device_map="auto",
torch_dtype="bfloat16",
)
result = pipe("Zhrň nasledujúci dokument:", max_new_tokens=512)
6. Use cases — kedy použiť ktorý model
Scout — dlhý kontext za nízku cenu
- Analýza veľkých kódových báz — celý repozitár v jedinom prompte (do 5–6,5 M tokenov efektívne)
- Súhrn dlhých dokumentov — právne zmluvy, technická dokumentácia, výskumné správy
- RAG nad rozsiahlymi datasetmi — Scout zvládne priamo indexovať veľké objemy namiesto externého vector store
- Lacnejšia prevádzka — cca 2× lacnejší než Maverick na vstupných tokenoch; ideálny pre high-volume spracovanie
Maverick — produkčná kvalita
- Komplexný reasoning a coding — kde záleží na presnosti a Scout nestačí
- Multimodálne úlohy — analýza obrázkov v kombinácii s dlhým textom
- Chatbot a general assistant — produkčná úroveň s 1M-tokenovým kontextom
- Fine-tuning základ — veľká expert kapacita robí z Maverika dobrý základ pre doménové doladenie
Kedy radšej siahnuť po proprietárnych modeloch
- Highest-quality coding (multi-file refactoring): Claude Opus 4.7 (SWE-bench
84 %) výrazne prekonáva Maverick (74 %) - Overená long-context konzistencia: reálne testy ukazujú výpadky u Scout nad 128 K tokenmi; pre produkčné needle-in-haystack workloady Claude 1M alebo Gemini 3.1 Pro sú bezpečnejšou voľbou
- Air-gapped / compliance: na rozdiel od cloudových proprietary modelov môžete Llama 4 nasadiť on-premise bez odosielania dát tretím stranám
7. Slabosti a kritika
Benchmark kontroverzia: Meta prezentovala Chatbot Arena výsledky z experimentálneho chat-modelu, nie z verejne vydaných checkpointov — komunita to označila za benchmark hacking. Reálne coding výsledky sú výrazne nižšie než prezentované (Maverick na Aider Polyglot: 16 %)
Long-context degradácia: napriek headline 10M tokenov Scout dosahuje pri 128 K tokenoch len ~15,6 % na RULER needle-in-haystack benchmark; prakticky využiteľné okno je výrazne kratšie ako marketingová hodnota
Multilinguálne pokrytie: modely sú optimalizované primárne na angličtinu; podpora ďalších 12 jazykov (vrátane slovenčiny) je základná, ale kvalitatívne za natívne európskymi jazykovými lídrami (Mistral) zaostáva
Alignment a bezpečnosť: nezávislé testy (ProtectAI) zistili 67,3 % náchylnosť Scout-u na jailbreak útoky; oba modely sú zraniteľné pri evasion útokoch (~60,7 % úspešnosť)
Hardvérová bariéra Maverick: pre produkčné nasadenie Maverick bez kvantizácie potrebujete 5–8× H100/H200 (~$20 000/mesiac cloudových nákladov) — reálne iba pre veľké tímy alebo cloudové hostingové služby
Meta Community License: pre rastúce platformy je 700M MAU prah potenciálna právna záťaž, ktorá komplikuje dlhodobé plánovanie produktu
8. Záver — pozícia v open-weight landscape Q2 2026
V Q2 2026 je trh open-weight modelov najkonkurencieschopnejší v histórii. Llama 4 stojí v nasledujúcom kontexte:
| Model | Parametre (aktívne/celkové) | Kontext | Licencia | Silná stránka |
|---|---|---|---|---|
| Llama 4 Scout | 17B / 109B MoE | 10 M | Meta CL | Dlhý kontext, nízka cena |
| Llama 4 Maverick | 17B / 400B MoE | 1 M | Meta CL | Produkčná kvalita, multimodál |
| Gemma 4 27B | 27B dense | 128 K | Apache 2.0 | Licencia, Google ekosystém |
| Qwen3 32B | 32B dense | 128 K | Apache 2.0 | Coding, čínske jazyky |
| DeepSeek V4 | MoE | 256 K | Open | Math, reasoning |
| Mistral Small 4 | 119B MoE | 128 K | Apache 2.0 | Multilingválnosť, EU compliance |
Záver: Llama 4 Scout a Maverick sú architektonicky zaujímavé modely, ktoré posúvajú hranice open-weight MoE inferencie a natívnej multimodality. Scout je zaujímavý ako lacný nástroj na long-context úlohy, Maverick je silný generalistický model — no reálny výkon v kódovaní a dlhom kontexte zaostáva za marketingovými číslami.
Pre tímy, ktorým záleží na licencii bez obmedzení, sú Gemma 4 (Apache 2.0) alebo Mistral Small 4 čistejšia voľba. Pre tímy, ktoré potrebujú overenú coding kvalitu, zostáva Claude Opus 4.7 štandardom. Llama 4 Maverick si nachádza priestor ako multimodálny mid-tier model s veľkou expert kapacitou a rastúcou ekosystémovou podporou (vLLM, Ollama, Hugging Face, Groq, Together, Fireworks).