AI Benchmarks a Hodnotenie: Ako meriame inteligenciu strojov
Každý model sa chváli číslami — „92 % na MMLU", „#1 na SWE-bench". Bez pochopenia, čo tieto čísla skutočne merajú, sú len marketingom.
1. Čo sú AI benchmarks a na čo slúžia
Benchmark je štandardizovaný test, ktorý meria výkon AI systému na konkrétnej sade úloh. Rovnako ako PISA testuje vzdelávací systém celých krajín, benchmarky testujú schopnosti jazykových modelov porovnateľným spôsobom naprieč laboratóriami a firmami.
Plnia tri základné funkcie:
- Porovnanie modelov: umožňujú objektívne meranie medzi rôznymi systémami bez prístupu k ich váham či tréningu
- Sledovanie pokroku: ukazujú, ako sa AI zlepšuje v čase — a kde pokrok stagnuje
- Identifikácia slabín: odhaľujú oblasti, kde model systematicky zaostáva (napr. matematika vs. jazyk)
Benchmarky sú nevyhnutnou súčasťou vedeckého publikovania, porovnávania modelov na platformách ako Hugging Face Open LLM Leaderboard a internej evaluácie pred nasadením do produkcie.
2. Najdôležitejšie benchmarky a čo merajú
Benchmark krajina je rozsiahla a každý zachycuje iný aspekt schopností modelu.
MMLU (Massive Multitask Language Understanding) — 57 akademických predmetov od práva po chémiu, 14 000 otázok s výberom odpovede. Meria šírku encyklopedických znalostí. Dnes je takmer saturovaný — najlepšie modely dosahujú 90 %+.
HumanEval / MBPP — programovacie úlohy, kde model musí napísať funkciu, ktorá prejde unit testami. Meria schopnosť generovať funkčný kód na úrovni algoritmických problémov.
GPQA (Graduate-Level Google-Proof Q&A) — otázky na PhD úrovni z chémie, biológie a fyziky. Zámerne navrhnuté tak, aby ich nebolo možné vyguglať. Testuje hlboké uvažovanie, nie vybavovanie faktov.
ARC-AGI — vizuálne pattern-matching úlohy, ktoré sú triviálne pre ľudí, ale extrémne ťažké pre modely. François Chollet ho vytvoril ako test skutočnej generalizácie, nie memorovania.
SWE-bench — reálne GitHub issues z open-source projektov. Model musí opraviť bug v skutočnej kódbáze tak, aby prešli testy. Menej akademický, viac praktický.
MATH / AIME — matematické problémy na úrovni stredoškolských olympiád. Testuje symbolické a viacstupňové uvažovanie.
TruthfulQA / SimpleQA — meria faktickú presnosť a tendenciu ku konfabulácii (halucináciám).
3. Porovnanie kľúčových benchmarkov
| Benchmark | Oblasť | Typ úlohy | Ťažkosť pre SOTA modely |
|---|---|---|---|
| MMLU | Multidisciplinárne znalosti | Multiple choice | Nízka (saturovaný) |
| HumanEval | Kódovanie — algoritmy | Generovanie kódu | Stredná |
| GPQA Diamond | Veda na PhD úrovni | Multiple choice | Vysoká |
| ARC-AGI 2 | Vizuálna generalizácia | Pattern matching | Extrémna |
| SWE-bench Verified | Softvérové inžinierstvo | End-to-end oprava bugov | Vysoká |
| AIME 2025 | Matematika — olympiády | Otvorená odpoveď | Vysoká |
| TruthfulQA | Faktická presnosť | Multiple choice | Stredná |
| Chatbot Arena | Celková použiteľnosť | Ľudské hlasovanie | Neaplikovateľné |
4. Ako firmy používajú benchmarky v praxi
Benchmark výsledky sa objavujú v troch kontextoch:
Publikácie a technické reporty — každý veľký model (GPT-5, Claude Opus 4, Gemini 3) vydáva technical report s desiatkami benchmark skóre. Slúžia ako „doklad spôsobilosti" pre vedeckú komunitu.
Leaderboardy — platformy ako Hugging Face Open LLM Leaderboard, LMSYS Chatbot Arena alebo LiveBench agregujú výsledky a umožňujú priame porovnanie. Umiestnenie na leaderboarde sa priamo premieta do adopcie modelu.
Interná evaluácia pred nasadením — firmy si stavajú vlastné domain-specific evals pre konkrétne use-casy: právnické zmluvy, medicínska diagnóza, zákaznícka podpora. Generické benchmarky nestačia na predpoveď výkonu v špecifickej doméne.
Red-teaming a safety evals — špeciálna kategória benchmarkov testuje bezpečnosť: mieru odmietnutia škodlivých požiadaviek, odolnosť voči prompt injection, tendenciu ku konfabulácii v citlivých oblastiach.
5. Limity, riziká a budúcnosť hodnotenia
Benchmarky majú závažné problémy, o ktorých sa hovorí menej ako o samotných číslach.
Kontaminácia trénovacích dát — ak model videl otázky z benchmarku počas tréningu, jeho skóre je nafúknuté. Keďže firmy väčšinou nezverejňujú trénovacie dáta, je ťažké to overiť. Niektoré štúdie odhalili až 10–15 percentuálnych bodov umelého navýšenia.
Goodhartov zákon — „Keď sa metrika stane cieľom, prestáva byť dobrou metrikou." Modely sa optimalizujú priamo na benchmark štruktúru — napríklad trénovaním na syntetických dátach s rovnakým formátom otázok — bez toho, aby sa skutočná schopnosť zlepšila.
Saturácia — MMLU dosiahlo hranicu, kde rozdiely medzi modelmi sú menšie ako štatistická chyba. Komunita musí neustále tvoriť ťažšie testy.
Nesúlad s reálnym použitím — vysoké HumanEval skóre nezaručuje, že model dobre zvládne refaktoring milióna riadkov produkčného kódu. Benchmarky sú proxy metriky, nie priame meranie hodnoty pre používateľa.
Odpovede komunity na tieto problémy:
- LiveBench — dynamicky aktualizované otázky z posledného mesiaca. Kontaminácia nie je možná, lebo otázky ešte neexistovali počas tréningu.
- Chatbot Arena — ľudia hlasujú medzi dvoma anonymnými modelmi v reálnych konverzáciách. Zachycuje „použiteľnosť" namiesto akademickej presnosti.
- Agentic benchmarks — WebArena, AgentBench, TAU-bench testujú multi-krokové agentické správanie v simulovaných prostrediach.
- Nepriame produkčné metriky — reálna miera adopcie, chybovosť v produkčných systémoch, retention rate.
Zhrnutie: AI benchmarky sú nevyhnutný, ale nedokonalý nástroj — čítaj ich vždy s pochopením toho, čo konkrétny test meria a čo nezachycuje, lebo skóre 90 % na MMLU ti nevypovie, či model bude užitočný pri tvojej konkrétnej práci.