Llama 4 Scout & Maverick

Llama 4 Scout a Llama 4 Maverick sú prvé open-weight modely z dielne Meta AI postavené na architektúre Mixture-of-Experts (MoE) s natívnou multimodalitou. Meta ich vydala 5. apríla 2026 — iba tri dni po vydaní Gemma 4 od Google — a umiestnila ich ako najvýkonnejšie open-weight modely svojej generácie. Vydanie sprevádzala kontroverzná diskusia o benchmarkoch aj licencovaní, no z technického hľadiska ide o zásadný architektonický posun oproti predošlej Llama 3.x línii.


1. Čo je Llama 4 Scout a Maverick

Oba modely sú súčasťou širšej „Llama 4 Herd", ku ktorej patrí aj ešte nevydaný trénovací behemot Llama 4 Behemoth (slúži ako teacher model). Navonok sú Scout a Maverick samostatné deployovateľné modely s odlišným pomerom výkonu a ceny:

  • Scout — menší, úspornejší variant

    • 17B aktívnych parametrov (aktivovaných pri každom forward-passe), 109B celkových parametrov, 16 expertov
    • Kontextové okno: 10 miliónov tokenov — najdlhší kontext akéhokoľvek open-weight modelu k dispozícii (v praxi efektívne 5–6,5 M tokenov)
    • Určený pre dlhý kontext, lacnejšia inferencia, edge workloady
  • Maverick — väčší, produkčný variant

    • 17B aktívnych parametrov, 400B celkových parametrov, 128 expertov + 1 zdieľaný expert
    • Kontextové okno: 1 milión tokenov
    • Určený pre maximálnu kvalitu výstupu, complex reasoning, multimodálne úlohy

Oba modely sú natively multimodálne — trénovane od základu na kombináciu textu a obrázkov, nie len text-only s pripojeným víziovým enkodérom.


2. Hlavné novinky oproti Llama 3.x

Architektúra: Mixture-of-Experts

  • Llama 3.x bola dense architektúra — každý token aktivoval všetky parametre modelu
  • Llama 4 zavádza MoE: každý token prechádza cez pevné vrstvy, ale v MoE vrstvách sa aktivuje len subset expertov
  • Maverick pri každom tokene aktivuje zdieľaného experta + 1 z 128 routed expertov — teda pracuje s 17B parametrami namiesto 400B
  • Výsledok: inferenčné náklady sa riadia aktívnymi parametrami (17B), nie celkovými (400B) — Maverick je vo výpočtovej záťaži porovnateľný s dense modelom veľkosti 17B, no v kvalite zodpovedá oveľa väčšiemu modelu

Extrémne dlhý kontext

  • Scout s 10M-tokenovým oknom umožňuje analyzu celých kódových báz, dlhých dokumentov alebo stoviek súborov v jedinom prompte
  • Maverick ponúka 1M tokenov — stále viac ako väčšina konkurencie

Multimodalita ako default

  • Oba modely prijímajú obrázky aj text v rovnakom API volaní
  • Výstup zostáva textový (nie generovanie obrázkov)
  • Praktické pre: analýzu diagramov, OCR-like úlohy, vizuálny QA, popis screenshotov

Energetická efektívnosť

  • MoE architektúra znižuje FLOPs na token pri rovnakej úrovni kvality
  • Maverick vo vLLM benchmarkoch dosahuje výrazne vyšší throughput než porovnateľný dense model rovnakej celkovej veľkosti

3. Benchmarky

Benchmark Scout Maverick Llama 3.3 70B GPT-5 Turbo Claude Opus 4.7
MMLU 79,6 % 85,5 % ~79,5 % ~84 % ~88 %
GSM8K (math) 88,9 % 91,5 % 87,3 % ~93 % ~95 %
HumanEval (kód) ~78 % 91,5 % ~79 % ~87 % ~89 %
SWE-bench Verified nie je k dispozícii 74,2 % ~49 % ~78 % ~84 %
Kontext 10 M 1 M 128 K 128 K 1 M

Tabuľka je orientačná — čísla pochádzajú z Meta release notes a komunity; zvoľte vlastné eval-y pre váš konkrétny use-case.

Dôležité upozornenie: po vydaní vyšlo najavo, že Meta prezentovala Chatbot Arena skóre z experimentálnej chat-tuned verzie, nie z verejne dostupných modelov. Nezávislé testy ukázali výraznejšie medzery:

  • Aider Polyglot Benchmark (coding): Maverick 16 % — výsledok porovnateľný s modelmi o ráde menšími
  • Long-context needle-in-haystack pri 128 K tokenoch: Scout ~15,6 % vs. Gemini 2.5 Pro ~90,6 %
  • ARC-AGI: oba modely zaostávajú za Gemini 3.1 Pro a GPT-5.4

4. Licencovanie a distribúcia

Llama 4 nie je Apache 2.0 — Meta vydala modely pod vlastnou Meta Llama 4 Community License:

  • Komerčné použitie je povolené zadarmo pre väčšinu spoločností
  • 700M MAU pravidlo: platformy s viac ako 700 miliónmi mesačne aktívnych používateľov potrebujú osobitný súhlas Meta — čo v praxi znamená platený Enterprise agreement
  • Redistribúcia derivátov vyžaduje zachovanie „Llama" v názve produktu
  • Jemné doladenie (fine-tuning) a nasadenie on-premise je povolené

Toto je zásadný rozdiel oproti Gemma 4 (Apache 2.0, vydanej o tri dni skôr), kde žiadne MAU obmedzenia neexistujú. Pre slovenské a európske firmy bez globálnych platforiem pravidlo 700M MAU v praxi nezasahuje — no právna konzultácia pred embeddovaním do produktu zostáva odporúčaná.


5. Inferencia a deployment

Hardvérové požiadavky

MoE modely potrebujú VRAM úmernú celkovým parametrom, nie aktívnym:

Konfigurácia Scout (109B) Maverick (400B)
FP16 (plné weights) ~216 GB (4× H100) ~800 GB (7× H200)
INT8 ~109 GB (2× H100) ~400 GB (5× H200)
Q4 ~55 GB (1× H100) ~200 GB (3× H100)
Q2 / 1,78-bit (Unsloth) ~27 GB (1× A100) ~100 GB (2× A100)

Scout s agresívnou 1,78-bit kvantizáciou (Unsloth) sa zmestí na jeden 24 GB consumer GPU (RTX 4090).

Hosting providers a pricing

Provider Scout (input/output per 1M) Maverick (input/output per 1M)
Groq $0,11 / $0,34 $0,50 / $0,77
Fireworks $0,12 / $0,35 $0,15 / $0,60
Together AI k dispozícii k dispozícii
DeepInfra k dispozícii $0,15 / $0,60
Lambda / Novita k dispozícii k dispozícii

vLLM (produkčné nasadenie)

vLLM od verzie v0.8.3 plne podporuje Llama 4:

# Scout - 2x H100
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-4-Scout-17B-16E-Instruct \
  --tensor-parallel-size 2 \
  --dtype bfloat16

# Maverick - 8x H100
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-4-Maverick-17B-128E-Instruct \
  --tensor-parallel-size 8 \
  --dtype bfloat16

Ollama / llama.cpp (lokálne nasadenie)

GGUF kvantizácie poskytuje komunita (Unsloth, bartowski, lmstudio-community):

# Scout cez Ollama z Hugging Face Hub
ollama run hf.co/unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF:Q4_K_M

# Scout cez llama.cpp
./llama-cli \
  -m Llama-4-Scout-17B-16E-Instruct-Q4_K_M.gguf \
  -p "Analyzuj nasledujúci kód:" \
  -n 1024

Transformers (Python SDK)

from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    device_map="auto",
    torch_dtype="bfloat16",
)

result = pipe("Zhrň nasledujúci dokument:", max_new_tokens=512)

6. Use cases — kedy použiť ktorý model

Scout — dlhý kontext za nízku cenu

  • Analýza veľkých kódových báz — celý repozitár v jedinom prompte (do 5–6,5 M tokenov efektívne)
  • Súhrn dlhých dokumentov — právne zmluvy, technická dokumentácia, výskumné správy
  • RAG nad rozsiahlymi datasetmi — Scout zvládne priamo indexovať veľké objemy namiesto externého vector store
  • Lacnejšia prevádzka — cca 2× lacnejší než Maverick na vstupných tokenoch; ideálny pre high-volume spracovanie

Maverick — produkčná kvalita

  • Komplexný reasoning a coding — kde záleží na presnosti a Scout nestačí
  • Multimodálne úlohy — analýza obrázkov v kombinácii s dlhým textom
  • Chatbot a general assistant — produkčná úroveň s 1M-tokenovým kontextom
  • Fine-tuning základ — veľká expert kapacita robí z Maverika dobrý základ pre doménové doladenie

Kedy radšej siahnuť po proprietárnych modeloch

  • Highest-quality coding (multi-file refactoring): Claude Opus 4.7 (SWE-bench 84 %) výrazne prekonáva Maverick (74 %)
  • Overená long-context konzistencia: reálne testy ukazujú výpadky u Scout nad 128 K tokenmi; pre produkčné needle-in-haystack workloady Claude 1M alebo Gemini 3.1 Pro sú bezpečnejšou voľbou
  • Air-gapped / compliance: na rozdiel od cloudových proprietary modelov môžete Llama 4 nasadiť on-premise bez odosielania dát tretím stranám

7. Slabosti a kritika

  • Benchmark kontroverzia: Meta prezentovala Chatbot Arena výsledky z experimentálneho chat-modelu, nie z verejne vydaných checkpointov — komunita to označila za benchmark hacking. Reálne coding výsledky sú výrazne nižšie než prezentované (Maverick na Aider Polyglot: 16 %)

  • Long-context degradácia: napriek headline 10M tokenov Scout dosahuje pri 128 K tokenoch len ~15,6 % na RULER needle-in-haystack benchmark; prakticky využiteľné okno je výrazne kratšie ako marketingová hodnota

  • Multilinguálne pokrytie: modely sú optimalizované primárne na angličtinu; podpora ďalších 12 jazykov (vrátane slovenčiny) je základná, ale kvalitatívne za natívne európskymi jazykovými lídrami (Mistral) zaostáva

  • Alignment a bezpečnosť: nezávislé testy (ProtectAI) zistili 67,3 % náchylnosť Scout-u na jailbreak útoky; oba modely sú zraniteľné pri evasion útokoch (~60,7 % úspešnosť)

  • Hardvérová bariéra Maverick: pre produkčné nasadenie Maverick bez kvantizácie potrebujete 5–8× H100/H200 (~$20 000/mesiac cloudových nákladov) — reálne iba pre veľké tímy alebo cloudové hostingové služby

  • Meta Community License: pre rastúce platformy je 700M MAU prah potenciálna právna záťaž, ktorá komplikuje dlhodobé plánovanie produktu


8. Záver — pozícia v open-weight landscape Q2 2026

V Q2 2026 je trh open-weight modelov najkonkurencieschopnejší v histórii. Llama 4 stojí v nasledujúcom kontexte:

Model Parametre (aktívne/celkové) Kontext Licencia Silná stránka
Llama 4 Scout 17B / 109B MoE 10 M Meta CL Dlhý kontext, nízka cena
Llama 4 Maverick 17B / 400B MoE 1 M Meta CL Produkčná kvalita, multimodál
Gemma 4 27B 27B dense 128 K Apache 2.0 Licencia, Google ekosystém
Qwen3 32B 32B dense 128 K Apache 2.0 Coding, čínske jazyky
DeepSeek V4 MoE 256 K Open Math, reasoning
Mistral Small 4 119B MoE 128 K Apache 2.0 Multilingválnosť, EU compliance

Záver: Llama 4 Scout a Maverick sú architektonicky zaujímavé modely, ktoré posúvajú hranice open-weight MoE inferencie a natívnej multimodality. Scout je zaujímavý ako lacný nástroj na long-context úlohy, Maverick je silný generalistický model — no reálny výkon v kódovaní a dlhom kontexte zaostáva za marketingovými číslami.

Pre tímy, ktorým záleží na licencii bez obmedzení, sú Gemma 4 (Apache 2.0) alebo Mistral Small 4 čistejšia voľba. Pre tímy, ktoré potrebujú overenú coding kvalitu, zostáva Claude Opus 4.7 štandardom. Llama 4 Maverick si nachádza priestor ako multimodálny mid-tier model s veľkou expert kapacitou a rastúcou ekosystémovou podporou (vLLM, Ollama, Hugging Face, Groq, Together, Fireworks).


Zdroje a ďalšie čítanie