RLVR: Tréningová metóda, ktorá naučila AI naozaj myslieť
RLVR (Reinforcement Learning from Verifiable Rewards) je tréningová technika stojaca za revolúciou reasoning modelov — od OpenAI o1 cez DeepSeek-R1 až po dnešné Claude a Gemini thinking modely. Na rozdiel od RLHF, kde odmenu určuje človek, tu odmenu vypočíta počítač — a to mení všetko.
1. Prečo nestačilo RLHF
Pred RLVR dominovalo posilňovacie učenie z ľudskej spätnej väzby (RLHF). Model produkuje odpovede, ľudskí hodnotitelia ich porovnávajú a reward model sa naučí ich preferencie. Tento prístup funguje pri subjektívnych úlohách — piš plynulú prózu, buď zdvorilý, odpovede formátuj prehľadne.
Pri objektívnych úlohách však naráža na tri zásadné limity:
- Škálovateľnosť: Matematické dôkazy, dlhé kódy či logické hádanky sú pre ľudských hodnotiteľov ťažké — a drahé kontrolovať.
- Spoľahlivosť: Ľudia robia chyby, majú predsudky, unavujú sa. Reward model sa naučí imitovať tieto nedostatky.
- Hĺbka rezoningu: RLHF odmeňuje vyzeranie správnosti, nie skutočnú správnosť. Model sa naučí presvedčivo znieť, nie naozaj myslieť.
RLVR rieši tieto problémy elegantne: reward funkciu definuje exaktná, automatická verifikácia výsledku.
2. Ako RLVR funguje
Základný princíp je priamočiary. Model dostane úlohu s overiteľnou odpoveďou — matematickú rovnicu, programovací problém s testovacími prípadmi, logickú hádanku. Vygeneruje riešenie vrátane myšlienkového reťazca. Automatický verifikátor odpoveď skontroluje — buď je správna, alebo nie. Výsledok tvorí reward signal.
Kľúčové komponenty:
- Verifikátor: Automatický program overujúci správnosť výsledku. Pri matematike porovnáva číselnú hodnotu, pri kóde spúšťa testy, pri logike kontroluje konzistenciu.
- Myšlienkový reťazec (chain-of-thought): Model pred odpoveďou "premýšľa nahlas" — zapisuje medzikroky. RLVR odmeňuje celý proces, nielen finálny výsledok.
- Group Relative Policy Optimization (GRPO): Algoritmus vyvinutý DeepSeek, ktorý porovnáva viacero pokusov modelu na tej istej úlohe a odmeňuje tie lepšie relatívne voči ostatným. Efektívnejší ako tradičný PPO, pretože nepotrebuje separátny value model.
- Rejection Sampling: Model generuje N pokusov paralelne, zachovajú sa iba správne — tieto sa použijú na doladenie (supervised fine-tuning) pred hlavnou RL fázou.
Tréningová slučka v praxi:
- Model dostane úlohu zo zbierky overiteľných problémov
- Vygeneruje riešenie s rezoningom (niekoľko pokusov paralelne)
- Verifikátor ohodnotí správnosť každého pokusu
- Gradient descent posilní trajektórie vedúce k správnym odpovediam
- Opakuj stovky tisíc krokov
3. RLVR vs. RLHF vs. DPO
| Vlastnosť | RLHF | DPO | RLVR |
|---|---|---|---|
| Zdroj odmeny | Ľudskí hodnotitelia | Párové preferencie | Automatický verifikátor |
| Typ úloh | Subjektívne (štýl, tón) | Subjektívne aj objektívne | Objektívne (math, kód, logika) |
| Škálovateľnosť | Nízka — vyžaduje ľudskú prácu | Stredná | Vysoká — plne automatická |
| Presnosť odmeny | Stredná | Nízka–stredná | Vysoká — exaktná |
| Riziko reward hackingu | Stredné | Nízke | Nízke, no stále prítomné |
| Typický výsledok | Plynulé, zdvorilé odpovede | Preferenčné odpovede | Hlboký multi-krokový rezoning |
| Príklady modelov | InstructGPT, Claude 2 | Zephyr, Llama 2 Chat | o1, DeepSeek-R1, Gemini Thinking |
Dôležitý detail: RLVR sa v praxi kombinuje s predchádzajúcimi metódami. RLHF a SFT najprv vylepšia komunikačné vlastnosti modelu, potom RLVR doladí schopnosť riešiť ťažké štruktúrované úlohy.
4. Modely, výsledky a prekvapenia
OpenAI o1 (2024) bol prvý verejne dostupný model trénovaný primárne cez RLVR. Skóroval na úrovni PhD v prírodných vedách a dosiahol 83. percentil v kvalifikácii matematickej olympiády. Detaily tréningového procesu neboli zverejnené, ale princíp je zdokumentovaný v nadväzujúcom výskume.
DeepSeek-R1 (2025) bol prvý plne open-source reasoning model s publikovanou metodológiou. Použil algoritmus GRPO a trénoval na matematike a kódovaní. Priniesol jedno z najprekvapivejších zistení roka: model sa sám naučil tzv. "aha moment" — návrat k predchádzajúcemu kroku v prípade zistenia chyby. Toto správanie nebolo explicitne naprogramované, emergentne vyplynulo z procesu odmeňovania správnych výsledkov.
Qwen3, Gemini Thinking, Claude Extended Thinking: Od roku 2025 každý hlavný poskytovateľ implementoval vlastnú veriantu RLVR ako základ pre reasoning modely.
Kľúčové výsledky z výskumu:
- RLVR výrazne zlepšuje výkon na matematike (AIME, AMC) a kódovaní (Codeforces, LeetCode Hard)
- Emergentné schopnosti — self-correction, backtracking, hierarchické plánovanie — vznikajú bez explicitného tréningu na tieto správania
- Menšie modely trénované cez RLVR prekonávajú väčšie modely trénované iba cez RLHF a SFT pri štruktúrovaných úlohách
5. Limity a otvorené otázky
Závislosť od verifikovateľnosti je fundamentálne obmedzenie. RLVR funguje iba tam, kde existuje automatická overiteľnosť výsledku. Písanie esejí, strategické poradenstvo, kreatívna práca — tieto domény zostávajú mimo dosahu. Aktívny výskum hľadá spôsoby, ako rozšíriť verifikovateľnosť na dlhšie a menej štruktúrované úlohy pomocou LLM-as-judge alebo procesných verifikátorov.
Reward hacking aj v RLVR: Aj keď je odmena exaktná, model niekedy nájde "trik" — naučí sa rozpoznať formát správnej odpovede bez skutočného pochopenia matematiky. Robustné testovanie, diverzifikácia verifikátorov a out-of-distribution evaluácia sú nevyhnutné.
Distribučný posun: Model optimalizovaný na matematické olympiády môže stratiť schopnosti v iných oblastiach — klasický problém katastrofálneho zabudnutia. Riešením sú zmiešané tréningové dáta a pravidelné meranie regresiou na širšej sade benchmarkov.
Overthinking: Dlhšie myšlienkové reťazce nezaručujú lepší výsledok. Modely sa niekedy naučia generovať zbytočne rozsiahly rezoning — míňajú tokeny bez prínosu pre presnosť. Kalibrácia dĺžky rezoningu je otvorenou výskumnou otázkou.
Rozšírenie na agentické systémy je najaktívnejší smer výskumu v roku 2026. Ako aplikovať RLVR na multi-krokové agentické úlohy, kde odmena prichádza až po dlhej sekvencii akcií (sparse reward)? Techniky ako hierarchická odmena, Monte Carlo Tree Search a process reward modely sú aktívne skúmané a začínajú prenikať do produkčných systémov.
Zhrnutie: RLVR presunul tréning AI modelov od "páč sa ľuďom" k "buď objektívne správny" — a tým otvoril éru reasoning modelov, ktoré skutočne riešia problémy namiesto imitovania správnych odpovedí. Dnes je táto technika základom každého frontier reasoning modelu a jej vplyv na agentic AI len začína.