Llama 4 Scout & Maverick

Llama 4 Scout a Llama 4 Maverick sú prvé open-weight modely z dielne Meta AI postavené na architektúre Mixture-of-Experts (MoE) s natívnou multimodalitou. Meta ich vydala 5. apríla 2026 — iba tri dni po vydaní Gemma 4 od Google — a umiestnila ich ako najvýkonnejšie open-weight modely svojej generácie. Vydanie sprevádzala kontroverzná diskusia o benchmarkoch aj licencovaní, no z technického hľadiska ide o zásadný architektonický posun oproti predošlej Llama 3.x línii.

1. Čo je Llama 4 Scout a Maverick

Oba modely sú súčasťou širšej „Llama 4 Herd", ku ktorej patrí aj ešte nevydaný trénovací behemot Llama 4 Behemoth (slúži ako teacher model). Navonok sú Scout a Maverick samostatné deployovateľné modely s odlišným pomerom výkonu a ceny:

Scout — menší, úspornejší variant
- 17B aktívnych parametrov (aktivovaných pri každom forward-passe), 109B celkových parametrov, 16 expertov
- Kontextové okno: 10 miliónov tokenov — najdlhší kontext akéhokoľvek open-weight modelu k dispozícii (v praxi efektívne 5–6,5 M tokenov)
- Určený pre dlhý kontext, lacnejšia inferencia, edge workloady
Maverick — väčší, produkčný variant
- 17B aktívnych parametrov, 400B celkových parametrov, 128 expertov + 1 zdieľaný expert
- Kontextové okno: 1 milión tokenov
- Určený pre maximálnu kvalitu výstupu, complex reasoning, multimodálne úlohy

Oba modely sú natively multimodálne — trénovane od základu na kombináciu textu a obrázkov, nie len text-only s pripojeným víziovým enkodérom.

2. Hlavné novinky oproti Llama 3.x

Architektúra: Mixture-of-Experts

Llama 3.x bola dense architektúra — každý token aktivoval všetky parametre modelu
Llama 4 zavádza MoE: každý token prechádza cez pevné vrstvy, ale v MoE vrstvách sa aktivuje len subset expertov
Maverick pri každom tokene aktivuje zdieľaného experta + 1 z 128 routed expertov — teda pracuje s 17B parametrami namiesto 400B
Výsledok: inferenčné náklady sa riadia aktívnymi parametrami (17B), nie celkovými (400B) — Maverick je vo výpočtovej záťaži porovnateľný s dense modelom veľkosti 17B, no v kvalite zodpovedá oveľa väčšiemu modelu

Extrémne dlhý kontext

Scout s 10M-tokenovým oknom umožňuje analyzu celých kódových báz, dlhých dokumentov alebo stoviek súborov v jedinom prompte
Maverick ponúka 1M tokenov — stále viac ako väčšina konkurencie

Multimodalita ako default

Oba modely prijímajú obrázky aj text v rovnakom API volaní
Výstup zostáva textový (nie generovanie obrázkov)
Praktické pre: analýzu diagramov, OCR-like úlohy, vizuálny QA, popis screenshotov

Energetická efektívnosť

MoE architektúra znižuje FLOPs na token pri rovnakej úrovni kvality
Maverick vo vLLM benchmarkoch dosahuje výrazne vyšší throughput než porovnateľný dense model rovnakej celkovej veľkosti

3. Benchmarky

Benchmark	Scout	Maverick	Llama 3.3 70B	GPT-5 Turbo	Claude Opus 4.7
MMLU	79,6 %	85,5 %	~79,5 %	~84 %	~88 %
GSM8K (math)	88,9 %	91,5 %	87,3 %	~93 %	~95 %
HumanEval (kód)	~78 %	91,5 %	~79 %	~87 %	~89 %
SWE-bench Verified	nie je k dispozícii	74,2 %	~49 %	~78 %	~84 %
Kontext	10 M	1 M	128 K	128 K	1 M

Tabuľka je orientačná — čísla pochádzajú z Meta release notes a komunity; zvoľte vlastné eval-y pre váš konkrétny use-case.

Dôležité upozornenie: po vydaní vyšlo najavo, že Meta prezentovala Chatbot Arena skóre z experimentálnej chat-tuned verzie, nie z verejne dostupných modelov. Nezávislé testy ukázali výraznejšie medzery:

Aider Polyglot Benchmark (coding): Maverick 16 % — výsledok porovnateľný s modelmi o ráde menšími
Long-context needle-in-haystack pri 128 K tokenoch: Scout ~15,6 % vs. Gemini 2.5 Pro ~90,6 %
ARC-AGI: oba modely zaostávajú za Gemini 3.1 Pro a GPT-5.4

4. Licencovanie a distribúcia

Llama 4 nie je Apache 2.0 — Meta vydala modely pod vlastnou Meta Llama 4 Community License:

Komerčné použitie je povolené zadarmo pre väčšinu spoločností
700M MAU pravidlo: platformy s viac ako 700 miliónmi mesačne aktívnych používateľov potrebujú osobitný súhlas Meta — čo v praxi znamená platený Enterprise agreement
Redistribúcia derivátov vyžaduje zachovanie „Llama" v názve produktu
Jemné doladenie (fine-tuning) a nasadenie on-premise je povolené

Toto je zásadný rozdiel oproti Gemma 4 (Apache 2.0, vydanej o tri dni skôr), kde žiadne MAU obmedzenia neexistujú. Pre slovenské a európske firmy bez globálnych platforiem pravidlo 700M MAU v praxi nezasahuje — no právna konzultácia pred embeddovaním do produktu zostáva odporúčaná.

5. Inferencia a deployment

Hardvérové požiadavky

MoE modely potrebujú VRAM úmernú celkovým parametrom, nie aktívnym:

Konfigurácia	Scout (109B)	Maverick (400B)
FP16 (plné weights)	~216 GB (4× H100)	~800 GB (7× H200)
INT8	~109 GB (2× H100)	~400 GB (5× H200)
Q4	~55 GB (1× H100)	~200 GB (3× H100)
Q2 / 1,78-bit (Unsloth)	~27 GB (1× A100)	~100 GB (2× A100)

Scout s agresívnou 1,78-bit kvantizáciou (Unsloth) sa zmestí na jeden 24 GB consumer GPU (RTX 4090).

Hosting providers a pricing

Provider	Scout (input/output per 1M)	Maverick (input/output per 1M)
Groq	$0,11 / $0,34	$0,50 / $0,77
Fireworks	$0,12 / $0,35	$0,15 / $0,60
Together AI	k dispozícii	k dispozícii
DeepInfra	k dispozícii	$0,15 / $0,60
Lambda / Novita	k dispozícii	k dispozícii

vLLM (produkčné nasadenie)

vLLM od verzie v0.8.3 plne podporuje Llama 4:

# Scout - 2x H100
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-4-Scout-17B-16E-Instruct \
  --tensor-parallel-size 2 \
  --dtype bfloat16

# Maverick - 8x H100
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-4-Maverick-17B-128E-Instruct \
  --tensor-parallel-size 8 \
  --dtype bfloat16

Ollama / llama.cpp (lokálne nasadenie)

GGUF kvantizácie poskytuje komunita (Unsloth, bartowski, lmstudio-community):

# Scout cez Ollama z Hugging Face Hub
ollama run hf.co/unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF:Q4_K_M

# Scout cez llama.cpp
./llama-cli \
  -m Llama-4-Scout-17B-16E-Instruct-Q4_K_M.gguf \
  -p "Analyzuj nasledujúci kód:" \
  -n 1024

Transformers (Python SDK)

from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    device_map="auto",
    torch_dtype="bfloat16",
)

result = pipe("Zhrň nasledujúci dokument:", max_new_tokens=512)

6. Use cases — kedy použiť ktorý model

Scout — dlhý kontext za nízku cenu

Analýza veľkých kódových báz — celý repozitár v jedinom prompte (do 5–6,5 M tokenov efektívne)
Súhrn dlhých dokumentov — právne zmluvy, technická dokumentácia, výskumné správy
RAG nad rozsiahlymi datasetmi — Scout zvládne priamo indexovať veľké objemy namiesto externého vector store
Lacnejšia prevádzka — cca 2× lacnejší než Maverick na vstupných tokenoch; ideálny pre high-volume spracovanie

Maverick — produkčná kvalita

Komplexný reasoning a coding — kde záleží na presnosti a Scout nestačí
Multimodálne úlohy — analýza obrázkov v kombinácii s dlhým textom
Chatbot a general assistant — produkčná úroveň s 1M-tokenovým kontextom
Fine-tuning základ — veľká expert kapacita robí z Maverika dobrý základ pre doménové doladenie

Kedy radšej siahnuť po proprietárnych modeloch

Highest-quality coding (multi-file refactoring): Claude Opus 4.7 (SWE-bench ~84 %) výrazne prekonáva Maverick (~74 %)
Overená long-context konzistencia: reálne testy ukazujú výpadky u Scout nad 128 K tokenmi; pre produkčné needle-in-haystack workloady Claude 1M alebo Gemini 3.1 Pro sú bezpečnejšou voľbou
Air-gapped / compliance: na rozdiel od cloudových proprietary modelov môžete Llama 4 nasadiť on-premise bez odosielania dát tretím stranám

7. Slabosti a kritika

Benchmark kontroverzia: Meta prezentovala Chatbot Arena výsledky z experimentálneho chat-modelu, nie z verejne vydaných checkpointov — komunita to označila za benchmark hacking. Reálne coding výsledky sú výrazne nižšie než prezentované (Maverick na Aider Polyglot: 16 %)
Long-context degradácia: napriek headline 10M tokenov Scout dosahuje pri 128 K tokenoch len ~15,6 % na RULER needle-in-haystack benchmark; prakticky využiteľné okno je výrazne kratšie ako marketingová hodnota
Multilinguálne pokrytie: modely sú optimalizované primárne na angličtinu; podpora ďalších 12 jazykov (vrátane slovenčiny) je základná, ale kvalitatívne za natívne európskymi jazykovými lídrami (Mistral) zaostáva
Alignment a bezpečnosť: nezávislé testy (ProtectAI) zistili 67,3 % náchylnosť Scout-u na jailbreak útoky; oba modely sú zraniteľné pri evasion útokoch (~60,7 % úspešnosť)
Hardvérová bariéra Maverick: pre produkčné nasadenie Maverick bez kvantizácie potrebujete 5–8× H100/H200 (~$20 000/mesiac cloudových nákladov) — reálne iba pre veľké tímy alebo cloudové hostingové služby
Meta Community License: pre rastúce platformy je 700M MAU prah potenciálna právna záťaž, ktorá komplikuje dlhodobé plánovanie produktu

8. Záver — pozícia v open-weight landscape Q2 2026

V Q2 2026 je trh open-weight modelov najkonkurencieschopnejší v histórii. Llama 4 stojí v nasledujúcom kontexte:

Model	Parametre (aktívne/celkové)	Kontext	Licencia	Silná stránka
Llama 4 Scout	17B / 109B MoE	10 M	Meta CL	Dlhý kontext, nízka cena
Llama 4 Maverick	17B / 400B MoE	1 M	Meta CL	Produkčná kvalita, multimodál
Gemma 4 27B	27B dense	128 K	Apache 2.0	Licencia, Google ekosystém
Qwen3 32B	32B dense	128 K	Apache 2.0	Coding, čínske jazyky
DeepSeek V4	MoE	256 K	Open	Math, reasoning
Mistral Small 4	119B MoE	128 K	Apache 2.0	Multilingválnosť, EU compliance

Záver: Llama 4 Scout a Maverick sú architektonicky zaujímavé modely, ktoré posúvajú hranice open-weight MoE inferencie a natívnej multimodality. Scout je zaujímavý ako lacný nástroj na long-context úlohy, Maverick je silný generalistický model — no reálny výkon v kódovaní a dlhom kontexte zaostáva za marketingovými číslami.

Pre tímy, ktorým záleží na licencii bez obmedzení, sú Gemma 4 (Apache 2.0) alebo Mistral Small 4 čistejšia voľba. Pre tímy, ktoré potrebujú overenú coding kvalitu, zostáva Claude Opus 4.7 štandardom. Llama 4 Maverick si nachádza priestor ako multimodálny mid-tier model s veľkou expert kapacitou a rastúcou ekosystémovou podporou (vLLM, Ollama, Hugging Face, Groq, Together, Fireworks).