AI Benchmarks a Hodnotenie: Ako meriame inteligenciu strojov

Každý model sa chváli číslami — „92 % na MMLU", „#1 na SWE-bench". Bez pochopenia, čo tieto čísla skutočne merajú, sú len marketingom.

1. Čo sú AI benchmarks a na čo slúžia

Benchmark je štandardizovaný test, ktorý meria výkon AI systému na konkrétnej sade úloh. Rovnako ako PISA testuje vzdelávací systém celých krajín, benchmarky testujú schopnosti jazykových modelov porovnateľným spôsobom naprieč laboratóriami a firmami.

Plnia tri základné funkcie:

Porovnanie modelov: umožňujú objektívne meranie medzi rôznymi systémami bez prístupu k ich váham či tréningu
Sledovanie pokroku: ukazujú, ako sa AI zlepšuje v čase — a kde pokrok stagnuje
Identifikácia slabín: odhaľujú oblasti, kde model systematicky zaostáva (napr. matematika vs. jazyk)

Benchmarky sú nevyhnutnou súčasťou vedeckého publikovania, porovnávania modelov na platformách ako Hugging Face Open LLM Leaderboard a internej evaluácie pred nasadením do produkcie.

2. Najdôležitejšie benchmarky a čo merajú

Benchmark krajina je rozsiahla a každý zachycuje iný aspekt schopností modelu.

MMLU (Massive Multitask Language Understanding) — 57 akademických predmetov od práva po chémiu, 14 000 otázok s výberom odpovede. Meria šírku encyklopedických znalostí. Dnes je takmer saturovaný — najlepšie modely dosahujú 90 %+.

HumanEval / MBPP — programovacie úlohy, kde model musí napísať funkciu, ktorá prejde unit testami. Meria schopnosť generovať funkčný kód na úrovni algoritmických problémov.

GPQA (Graduate-Level Google-Proof Q&A) — otázky na PhD úrovni z chémie, biológie a fyziky. Zámerne navrhnuté tak, aby ich nebolo možné vyguglať. Testuje hlboké uvažovanie, nie vybavovanie faktov.

ARC-AGI — vizuálne pattern-matching úlohy, ktoré sú triviálne pre ľudí, ale extrémne ťažké pre modely. François Chollet ho vytvoril ako test skutočnej generalizácie, nie memorovania.

SWE-bench — reálne GitHub issues z open-source projektov. Model musí opraviť bug v skutočnej kódbáze tak, aby prešli testy. Menej akademický, viac praktický.

MATH / AIME — matematické problémy na úrovni stredoškolských olympiád. Testuje symbolické a viacstupňové uvažovanie.

TruthfulQA / SimpleQA — meria faktickú presnosť a tendenciu ku konfabulácii (halucináciám).

3. Porovnanie kľúčových benchmarkov

Benchmark	Oblasť	Typ úlohy	Ťažkosť pre SOTA modely
MMLU	Multidisciplinárne znalosti	Multiple choice	Nízka (saturovaný)
HumanEval	Kódovanie — algoritmy	Generovanie kódu	Stredná
GPQA Diamond	Veda na PhD úrovni	Multiple choice	Vysoká
ARC-AGI 2	Vizuálna generalizácia	Pattern matching	Extrémna
SWE-bench Verified	Softvérové inžinierstvo	End-to-end oprava bugov	Vysoká
AIME 2025	Matematika — olympiády	Otvorená odpoveď	Vysoká
TruthfulQA	Faktická presnosť	Multiple choice	Stredná
Chatbot Arena	Celková použiteľnosť	Ľudské hlasovanie	Neaplikovateľné

4. Ako firmy používajú benchmarky v praxi

Benchmark výsledky sa objavujú v troch kontextoch:

Publikácie a technické reporty — každý veľký model (GPT-5, Claude Opus 4, Gemini 3) vydáva technical report s desiatkami benchmark skóre. Slúžia ako „doklad spôsobilosti" pre vedeckú komunitu.

Leaderboardy — platformy ako Hugging Face Open LLM Leaderboard, LMSYS Chatbot Arena alebo LiveBench agregujú výsledky a umožňujú priame porovnanie. Umiestnenie na leaderboarde sa priamo premieta do adopcie modelu.

Interná evaluácia pred nasadením — firmy si stavajú vlastné domain-specific evals pre konkrétne use-casy: právnické zmluvy, medicínska diagnóza, zákaznícka podpora. Generické benchmarky nestačia na predpoveď výkonu v špecifickej doméne.

Red-teaming a safety evals — špeciálna kategória benchmarkov testuje bezpečnosť: mieru odmietnutia škodlivých požiadaviek, odolnosť voči prompt injection, tendenciu ku konfabulácii v citlivých oblastiach.

5. Limity, riziká a budúcnosť hodnotenia

Benchmarky majú závažné problémy, o ktorých sa hovorí menej ako o samotných číslach.

Kontaminácia trénovacích dát — ak model videl otázky z benchmarku počas tréningu, jeho skóre je nafúknuté. Keďže firmy väčšinou nezverejňujú trénovacie dáta, je ťažké to overiť. Niektoré štúdie odhalili až 10–15 percentuálnych bodov umelého navýšenia.

Goodhartov zákon — „Keď sa metrika stane cieľom, prestáva byť dobrou metrikou." Modely sa optimalizujú priamo na benchmark štruktúru — napríklad trénovaním na syntetických dátach s rovnakým formátom otázok — bez toho, aby sa skutočná schopnosť zlepšila.

Saturácia — MMLU dosiahlo hranicu, kde rozdiely medzi modelmi sú menšie ako štatistická chyba. Komunita musí neustále tvoriť ťažšie testy.

Nesúlad s reálnym použitím — vysoké HumanEval skóre nezaručuje, že model dobre zvládne refaktoring milióna riadkov produkčného kódu. Benchmarky sú proxy metriky, nie priame meranie hodnoty pre používateľa.

Odpovede komunity na tieto problémy:

LiveBench — dynamicky aktualizované otázky z posledného mesiaca. Kontaminácia nie je možná, lebo otázky ešte neexistovali počas tréningu.
Chatbot Arena — ľudia hlasujú medzi dvoma anonymnými modelmi v reálnych konverzáciách. Zachycuje „použiteľnosť" namiesto akademickej presnosti.
Agentic benchmarks — WebArena, AgentBench, TAU-bench testujú multi-krokové agentické správanie v simulovaných prostrediach.
Nepriame produkčné metriky — reálna miera adopcie, chybovosť v produkčných systémoch, retention rate.

Zhrnutie: AI benchmarky sú nevyhnutný, ale nedokonalý nástroj — čítaj ich vždy s pochopením toho, čo konkrétny test meria a čo nezachycuje, lebo skóre 90 % na MMLU ti nevypovie, či model bude užitočný pri tvojej konkrétnej práci.