LLM-as-a-Judge: Keď AI hodnotí AI
Technika, pri ktorej jazykový model hodnotí výstupy iného modelu, sa stala základom moderného trénovania aj nasadzovania AI — a zásadne mení to, ako meriame kvalitu generatívnych systémov.
1. Čo je LLM-as-a-Judge
LLM-as-a-Judge (LLM ako sudca) je prístup, pri ktorom silný jazykový model preberá úlohu hodnotiteľa: posudzuje odpovede, rozhoduje medzi dvoma variantmi alebo prideľuje skóre podľa vopred definovaných kritérií. Namiesto drahého a pomalého zbierania ľudských hodnotení sa na posudzovanie kvality textu, kódu či odpovedí použije frontier model — najčastejšie Claude, GPT-5 alebo ich ekvivalenty.
Prečo je to dôležité práve teraz? Tréning moderných modelov cez RLHF si vyžaduje milióny hodnotení. Ľudskí hodnotitelia sú pomalí, drahí a navzájom si nezhodujú. LLM-as-a-Judge znižuje náklady na hodnotenie o viac ako 90 % pri zachovaní vysokej korelácie s ľudskými preferenciami — v niektorých štúdiách nad 0,85.
Hlavné oblasti použitia:
- Evaluácia modelov — porovnanie dvoch odpovedí (A/B) a výber lepšej
- RLAIF (Reinforcement Learning from AI Feedback) — náhrada ľudských hodnotiteľov pri tréningu reward modelu
- Automatické benchmarky — hodnotenie výkonnosti na otvorených úlohách bez referenčného riešenia
- Produkčné monitorovanie — detekcia halucinácií, toxicity a irelevantnosti v živom nasadení
- Filtrovanie syntetických dát — kontrola kvality pred použitím dát na ďalší tréning
2. Ako to funguje v praxi
Existujú tri hlavné vzory:
Pointwise hodnotenie — sudca dostane jednu odpoveď a ohodnotí ju na škále (napr. 1–10) podľa explicitných kritérií: faktická správnosť, koherentnosť, bezpečnosť, užitočnosť. Výsledok je číslo alebo kategorický label. Tento vzor sa používa pri monitorovaní produkcie.
Pairwise hodnotenie — sudca dostane dve odpovede (A a B) na rovnakú otázku a rozhodne, ktorá je lepšia, prípadne vyhlási remízu. Formát lepšie koreluje s ľudskými preferenciami a je základom MT-Bench a Chatbot Arény od LMSYS. Systém zbiera hodnotenia do ELO rebríčka.
Reference-based hodnotenie — sudca porovná odpoveď s referenčným „zlatým" riešením. Vhodné na faktické otázky, matematiku alebo kód, kde existuje jasná správna odpoveď. Menej flexibilné, ale presnejšie v ohraničených doménach.
Typický systémový prompt pre pairwise sudcu:
[System] Si nestranný odborný hodnotiteľ. Nepreferuješ žiadneho výrobcu AI.
[Question] {otázka_používateľa}
[Response A] {odpoveď_A}
[Response B] {odpoveď_B}
Vyber lepšiu odpoveď alebo vyhlásiť remízu.
Zdôvodni rozhodnutie v 2–3 vetách. Záver uveď ako: [[A]], [[B]] alebo [[TIE]].
3. Porovnanie prístupov k hodnoteniu
| Metóda | Cena | Rýchlosť | Konzistencia | Pokrytie tém |
|---|---|---|---|---|
| Ľudskí hodnotitelia | Vysoká | Pomalá | Stredná | Univerzálne |
| Rule-based metriky (BLEU, ROUGE) | Nízka | Okamžitá | Vysoká | Len štruktúrované úlohy |
| Špecializovaný reward model | Stredná | Veľmi rýchla | Vysoká | Doménovo obmedzené |
| LLM-as-a-Judge (frontier model) | Stredná | Rýchla | Vysoká | Univerzálne |
| LLM-as-a-Judge (malý model) | Nízka | Rýchla | Nízka–stredná | Obmedzené |
Frontier model ako sudca dosahuje najlepší pomer pokrytia a konzistencie, no stále ide o kompromis medzi cenou a hĺbkou posúdenia v špecializovaných oblastiach.
4. Praktické použitie a príklady
MT-Bench a AlpacaEval boli prvé benchmarky vo veľkom meradle, ktoré použili GPT-4 na hodnotenie chatbotov namiesto ľudí. Výsledná korelácia s Chatbot Arénou (čisto ľudské hlasovanie) presahuje 0,9 — čo potvrdilo životaschopnosť prístupu.
Constitutional AI a RLAIF u Anthropic — Claude hodnotí Clauda. Revízie odpovedí podľa ústavných princípov prebiehajú automatizovane a ľudský vstup slúži len na kalibráciu, nie na primárny zber dát.
Produkčné monitorovacie platformy ako Patronus AI, Confident AI alebo Brainlox nasadili LLM-judge pipeline na detekciu halucinácií a bezpečnostných porušení v reálnom čase — bez nutnosti ľudskej kontroly každého výstupu.
Príklad jednoduchej hodnotiacej funkcie:
import anthropic, json
client = anthropic.Anthropic()
def llm_judge(question: str, answer: str) -> dict:
prompt = f"""Ohodnoť odpoveď podľa troch kritérií.
Otázka: {question}
Odpoveď: {answer}
Kritériá:
- správnosť (0–3)
- koherentnosť (0–3)
- úplnosť (0–4)
Odpovedz iba ako JSON:
{{"spravnost": X, "koherentnost": X, "uplnost": X, "celkovo": X, "dovod": "..."}}"""
response = client.messages.create(
model="claude-opus-4-8",
max_tokens=256,
messages=[{"role": "user", "content": prompt}]
)
return json.loads(response.content[0].text)
5. Limity, biasy a čo ďalej
Pozičný bias — sudca tenduje preferovať odpoveď, ktorá príde ako prvá v kontexte, alebo dlhší text bez ohľadu na obsah. Riešenie: náhodné striedanie poradia a spriemerovaní viacerých hodnotení.
Sebapreferencia (self-preference bias) — model zvykne uprednostňovať text, ktorý je štýlovo podobný jeho vlastným výstupom. GPT-5 hodnotí GPT-5-like odpovede lepšie ako rovnako kvalitné, ale inak formulované. Mitigation: používať iný model ako sudcu a ako hodnotený model.
Cirkulárny tréning — ak trénujeme model M pomocou hodnotení od M, chyby sa postupne zveličujú. Každá ďalšia generácia je potenciálne horší sudca seba samého. Tento problém nemá jednoduché technické riešenie a vyžaduje periodický reset na ľudských dátach.
Slepé miesta v odborných doménach — frontier model nedetekuje subtílne faktické chyby v medicíne, práve alebo fyzike, ak sám nie je v danej oblasti spoľahlivý. LLM-judge v takýchto prípadoch vyžaduje kombináciu s doménovo špecializovaným reward modelom alebo ľudským expertom.
Škálovanie nákladov — hodnotenie miliónov výstupov frontier modelom zostáva drahé. Aktuálny trend: distillovať sudcovskú schopnosť do malých špecializovaných modelov (Skywork-Reward, ArmoRM, Eurus-RM), ktoré sú 100× lacnejšie a stále dosahujú >90 % presnosti frontier sudcu na štandardných benchmarkoch.
Zhrnutie: LLM-as-a-Judge sa stal neoddeliteľnou súčasťou moderného AI vývoja — od trénovania cez evaluáciu až po produkčné monitorovanie. Kľúčovou výzvou zostáva systematický bias a riziko cirkulárneho zhoršovania kvality, no správna kombinácia s ľudským dohľadom a špecializovanými reward modelmi robí z tejto techniky dnes prakticky nenahraditeľný nástroj.