LLM-as-a-Judge: Keď AI hodnotí AI

Technika, pri ktorej jazykový model hodnotí výstupy iného modelu, sa stala základom moderného trénovania aj nasadzovania AI — a zásadne mení to, ako meriame kvalitu generatívnych systémov.

1. Čo je LLM-as-a-Judge

LLM-as-a-Judge (LLM ako sudca) je prístup, pri ktorom silný jazykový model preberá úlohu hodnotiteľa: posudzuje odpovede, rozhoduje medzi dvoma variantmi alebo prideľuje skóre podľa vopred definovaných kritérií. Namiesto drahého a pomalého zbierania ľudských hodnotení sa na posudzovanie kvality textu, kódu či odpovedí použije frontier model — najčastejšie Claude, GPT-5 alebo ich ekvivalenty.

Prečo je to dôležité práve teraz? Tréning moderných modelov cez RLHF si vyžaduje milióny hodnotení. Ľudskí hodnotitelia sú pomalí, drahí a navzájom si nezhodujú. LLM-as-a-Judge znižuje náklady na hodnotenie o viac ako 90 % pri zachovaní vysokej korelácie s ľudskými preferenciami — v niektorých štúdiách nad 0,85.

Hlavné oblasti použitia:

Evaluácia modelov — porovnanie dvoch odpovedí (A/B) a výber lepšej
RLAIF (Reinforcement Learning from AI Feedback) — náhrada ľudských hodnotiteľov pri tréningu reward modelu
Automatické benchmarky — hodnotenie výkonnosti na otvorených úlohách bez referenčného riešenia
Produkčné monitorovanie — detekcia halucinácií, toxicity a irelevantnosti v živom nasadení
Filtrovanie syntetických dát — kontrola kvality pred použitím dát na ďalší tréning

2. Ako to funguje v praxi

Existujú tri hlavné vzory:

Pointwise hodnotenie — sudca dostane jednu odpoveď a ohodnotí ju na škále (napr. 1–10) podľa explicitných kritérií: faktická správnosť, koherentnosť, bezpečnosť, užitočnosť. Výsledok je číslo alebo kategorický label. Tento vzor sa používa pri monitorovaní produkcie.

Pairwise hodnotenie — sudca dostane dve odpovede (A a B) na rovnakú otázku a rozhodne, ktorá je lepšia, prípadne vyhlási remízu. Formát lepšie koreluje s ľudskými preferenciami a je základom MT-Bench a Chatbot Arény od LMSYS. Systém zbiera hodnotenia do ELO rebríčka.

Reference-based hodnotenie — sudca porovná odpoveď s referenčným „zlatým" riešením. Vhodné na faktické otázky, matematiku alebo kód, kde existuje jasná správna odpoveď. Menej flexibilné, ale presnejšie v ohraničených doménach.

Typický systémový prompt pre pairwise sudcu:

[System] Si nestranný odborný hodnotiteľ. Nepreferuješ žiadneho výrobcu AI.
[Question] {otázka_používateľa}
[Response A] {odpoveď_A}
[Response B] {odpoveď_B}

Vyber lepšiu odpoveď alebo vyhlásiť remízu.
Zdôvodni rozhodnutie v 2–3 vetách. Záver uveď ako: [[A]], [[B]] alebo [[TIE]].

3. Porovnanie prístupov k hodnoteniu

Metóda	Cena	Rýchlosť	Konzistencia	Pokrytie tém
Ľudskí hodnotitelia	Vysoká	Pomalá	Stredná	Univerzálne
Rule-based metriky (BLEU, ROUGE)	Nízka	Okamžitá	Vysoká	Len štruktúrované úlohy
Špecializovaný reward model	Stredná	Veľmi rýchla	Vysoká	Doménovo obmedzené
LLM-as-a-Judge (frontier model)	Stredná	Rýchla	Vysoká	Univerzálne
LLM-as-a-Judge (malý model)	Nízka	Rýchla	Nízka–stredná	Obmedzené

Frontier model ako sudca dosahuje najlepší pomer pokrytia a konzistencie, no stále ide o kompromis medzi cenou a hĺbkou posúdenia v špecializovaných oblastiach.

4. Praktické použitie a príklady

MT-Bench a AlpacaEval boli prvé benchmarky vo veľkom meradle, ktoré použili GPT-4 na hodnotenie chatbotov namiesto ľudí. Výsledná korelácia s Chatbot Arénou (čisto ľudské hlasovanie) presahuje 0,9 — čo potvrdilo životaschopnosť prístupu.

Constitutional AI a RLAIF u Anthropic — Claude hodnotí Clauda. Revízie odpovedí podľa ústavných princípov prebiehajú automatizovane a ľudský vstup slúži len na kalibráciu, nie na primárny zber dát.

Produkčné monitorovacie platformy ako Patronus AI, Confident AI alebo Brainlox nasadili LLM-judge pipeline na detekciu halucinácií a bezpečnostných porušení v reálnom čase — bez nutnosti ľudskej kontroly každého výstupu.

Príklad jednoduchej hodnotiacej funkcie:

import anthropic, json

client = anthropic.Anthropic()

def llm_judge(question: str, answer: str) -> dict:
    prompt = f"""Ohodnoť odpoveď podľa troch kritérií.

Otázka: {question}
Odpoveď: {answer}

Kritériá:
- správnosť (0–3)
- koherentnosť (0–3)  
- úplnosť (0–4)

Odpovedz iba ako JSON:
{{"spravnost": X, "koherentnost": X, "uplnost": X, "celkovo": X, "dovod": "..."}}"""

    response = client.messages.create(
        model="claude-opus-4-8",
        max_tokens=256,
        messages=[{"role": "user", "content": prompt}]
    )
    return json.loads(response.content[0].text)

5. Limity, biasy a čo ďalej

Pozičný bias — sudca tenduje preferovať odpoveď, ktorá príde ako prvá v kontexte, alebo dlhší text bez ohľadu na obsah. Riešenie: náhodné striedanie poradia a spriemerovaní viacerých hodnotení.

Sebapreferencia (self-preference bias) — model zvykne uprednostňovať text, ktorý je štýlovo podobný jeho vlastným výstupom. GPT-5 hodnotí GPT-5-like odpovede lepšie ako rovnako kvalitné, ale inak formulované. Mitigation: používať iný model ako sudcu a ako hodnotený model.

Cirkulárny tréning — ak trénujeme model M pomocou hodnotení od M, chyby sa postupne zveličujú. Každá ďalšia generácia je potenciálne horší sudca seba samého. Tento problém nemá jednoduché technické riešenie a vyžaduje periodický reset na ľudských dátach.

Slepé miesta v odborných doménach — frontier model nedetekuje subtílne faktické chyby v medicíne, práve alebo fyzike, ak sám nie je v danej oblasti spoľahlivý. LLM-judge v takýchto prípadoch vyžaduje kombináciu s doménovo špecializovaným reward modelom alebo ľudským expertom.

Škálovanie nákladov — hodnotenie miliónov výstupov frontier modelom zostáva drahé. Aktuálny trend: distillovať sudcovskú schopnosť do malých špecializovaných modelov (Skywork-Reward, ArmoRM, Eurus-RM), ktoré sú 100× lacnejšie a stále dosahujú >90 % presnosti frontier sudcu na štandardných benchmarkoch.

Zhrnutie: LLM-as-a-Judge sa stal neoddeliteľnou súčasťou moderného AI vývoja — od trénovania cez evaluáciu až po produkčné monitorovanie. Kľúčovou výzvou zostáva systematický bias a riziko cirkulárneho zhoršovania kvality, no správna kombinácia s ľudským dohľadom a špecializovanými reward modelmi robí z tejto techniky dnes prakticky nenahraditeľný nástroj.