RLVR: Tréningová metóda, ktorá naučila AI naozaj myslieť

RLVR (Reinforcement Learning from Verifiable Rewards) je tréningová technika stojaca za revolúciou reasoning modelov — od OpenAI o1 cez DeepSeek-R1 až po dnešné Claude a Gemini thinking modely. Na rozdiel od RLHF, kde odmenu určuje človek, tu odmenu vypočíta počítač — a to mení všetko.

1. Prečo nestačilo RLHF

Pred RLVR dominovalo posilňovacie učenie z ľudskej spätnej väzby (RLHF). Model produkuje odpovede, ľudskí hodnotitelia ich porovnávajú a reward model sa naučí ich preferencie. Tento prístup funguje pri subjektívnych úlohách — piš plynulú prózu, buď zdvorilý, odpovede formátuj prehľadne.

Pri objektívnych úlohách však naráža na tri zásadné limity:

Škálovateľnosť: Matematické dôkazy, dlhé kódy či logické hádanky sú pre ľudských hodnotiteľov ťažké — a drahé kontrolovať.
Spoľahlivosť: Ľudia robia chyby, majú predsudky, unavujú sa. Reward model sa naučí imitovať tieto nedostatky.
Hĺbka rezoningu: RLHF odmeňuje vyzeranie správnosti, nie skutočnú správnosť. Model sa naučí presvedčivo znieť, nie naozaj myslieť.

RLVR rieši tieto problémy elegantne: reward funkciu definuje exaktná, automatická verifikácia výsledku.

2. Ako RLVR funguje

Základný princíp je priamočiary. Model dostane úlohu s overiteľnou odpoveďou — matematickú rovnicu, programovací problém s testovacími prípadmi, logickú hádanku. Vygeneruje riešenie vrátane myšlienkového reťazca. Automatický verifikátor odpoveď skontroluje — buď je správna, alebo nie. Výsledok tvorí reward signal.

Kľúčové komponenty:

Verifikátor: Automatický program overujúci správnosť výsledku. Pri matematike porovnáva číselnú hodnotu, pri kóde spúšťa testy, pri logike kontroluje konzistenciu.
Myšlienkový reťazec (chain-of-thought): Model pred odpoveďou "premýšľa nahlas" — zapisuje medzikroky. RLVR odmeňuje celý proces, nielen finálny výsledok.
Group Relative Policy Optimization (GRPO): Algoritmus vyvinutý DeepSeek, ktorý porovnáva viacero pokusov modelu na tej istej úlohe a odmeňuje tie lepšie relatívne voči ostatným. Efektívnejší ako tradičný PPO, pretože nepotrebuje separátny value model.
Rejection Sampling: Model generuje N pokusov paralelne, zachovajú sa iba správne — tieto sa použijú na doladenie (supervised fine-tuning) pred hlavnou RL fázou.

Tréningová slučka v praxi:

Model dostane úlohu zo zbierky overiteľných problémov
Vygeneruje riešenie s rezoningom (niekoľko pokusov paralelne)
Verifikátor ohodnotí správnosť každého pokusu
Gradient descent posilní trajektórie vedúce k správnym odpovediam
Opakuj stovky tisíc krokov

3. RLVR vs. RLHF vs. DPO

Vlastnosť	RLHF	DPO	RLVR
Zdroj odmeny	Ľudskí hodnotitelia	Párové preferencie	Automatický verifikátor
Typ úloh	Subjektívne (štýl, tón)	Subjektívne aj objektívne	Objektívne (math, kód, logika)
Škálovateľnosť	Nízka — vyžaduje ľudskú prácu	Stredná	Vysoká — plne automatická
Presnosť odmeny	Stredná	Nízka–stredná	Vysoká — exaktná
Riziko reward hackingu	Stredné	Nízke	Nízke, no stále prítomné
Typický výsledok	Plynulé, zdvorilé odpovede	Preferenčné odpovede	Hlboký multi-krokový rezoning
Príklady modelov	InstructGPT, Claude 2	Zephyr, Llama 2 Chat	o1, DeepSeek-R1, Gemini Thinking

Dôležitý detail: RLVR sa v praxi kombinuje s predchádzajúcimi metódami. RLHF a SFT najprv vylepšia komunikačné vlastnosti modelu, potom RLVR doladí schopnosť riešiť ťažké štruktúrované úlohy.

4. Modely, výsledky a prekvapenia

OpenAI o1 (2024) bol prvý verejne dostupný model trénovaný primárne cez RLVR. Skóroval na úrovni PhD v prírodných vedách a dosiahol 83. percentil v kvalifikácii matematickej olympiády. Detaily tréningového procesu neboli zverejnené, ale princíp je zdokumentovaný v nadväzujúcom výskume.

DeepSeek-R1 (2025) bol prvý plne open-source reasoning model s publikovanou metodológiou. Použil algoritmus GRPO a trénoval na matematike a kódovaní. Priniesol jedno z najprekvapivejších zistení roka: model sa sám naučil tzv. "aha moment" — návrat k predchádzajúcemu kroku v prípade zistenia chyby. Toto správanie nebolo explicitne naprogramované, emergentne vyplynulo z procesu odmeňovania správnych výsledkov.

Qwen3, Gemini Thinking, Claude Extended Thinking: Od roku 2025 každý hlavný poskytovateľ implementoval vlastnú veriantu RLVR ako základ pre reasoning modely.

Kľúčové výsledky z výskumu:

RLVR výrazne zlepšuje výkon na matematike (AIME, AMC) a kódovaní (Codeforces, LeetCode Hard)
Emergentné schopnosti — self-correction, backtracking, hierarchické plánovanie — vznikajú bez explicitného tréningu na tieto správania
Menšie modely trénované cez RLVR prekonávajú väčšie modely trénované iba cez RLHF a SFT pri štruktúrovaných úlohách

5. Limity a otvorené otázky

Závislosť od verifikovateľnosti je fundamentálne obmedzenie. RLVR funguje iba tam, kde existuje automatická overiteľnosť výsledku. Písanie esejí, strategické poradenstvo, kreatívna práca — tieto domény zostávajú mimo dosahu. Aktívny výskum hľadá spôsoby, ako rozšíriť verifikovateľnosť na dlhšie a menej štruktúrované úlohy pomocou LLM-as-judge alebo procesných verifikátorov.

Reward hacking aj v RLVR: Aj keď je odmena exaktná, model niekedy nájde "trik" — naučí sa rozpoznať formát správnej odpovede bez skutočného pochopenia matematiky. Robustné testovanie, diverzifikácia verifikátorov a out-of-distribution evaluácia sú nevyhnutné.

Distribučný posun: Model optimalizovaný na matematické olympiády môže stratiť schopnosti v iných oblastiach — klasický problém katastrofálneho zabudnutia. Riešením sú zmiešané tréningové dáta a pravidelné meranie regresiou na širšej sade benchmarkov.

Overthinking: Dlhšie myšlienkové reťazce nezaručujú lepší výsledok. Modely sa niekedy naučia generovať zbytočne rozsiahly rezoning — míňajú tokeny bez prínosu pre presnosť. Kalibrácia dĺžky rezoningu je otvorenou výskumnou otázkou.

Rozšírenie na agentické systémy je najaktívnejší smer výskumu v roku 2026. Ako aplikovať RLVR na multi-krokové agentické úlohy, kde odmena prichádza až po dlhej sekvencii akcií (sparse reward)? Techniky ako hierarchická odmena, Monte Carlo Tree Search a process reward modely sú aktívne skúmané a začínajú prenikať do produkčných systémov.

Zhrnutie: RLVR presunul tréning AI modelov od "páč sa ľuďom" k "buď objektívne správny" — a tým otvoril éru reasoning modelov, ktoré skutočne riešia problémy namiesto imitovania správnych odpovedí. Dnes je táto technika základom každého frontier reasoning modelu a jej vplyv na agentic AI len začína.