RLHF
RLHF (Reinforcement Learning from Human Feedback) je tréningový prístup, kde sa model učí z ľudských preferencií: ľudia porovnávajú odpovede a model sa nastaví tak, aby častejšie produkoval tie „lepšie“ — užitočnejšie, bezpečnejšie a viac v očakávanom štýle. Je to jedna z kľúčových techník, vďaka ktorej sa zo „surového“ jazykového modelu stane použiteľný asistent.
1. Čo to je (definícia + analógia)
- Jadro: namiesto „jednej správnej odpovede“ učíš model, ktorá odpoveď sa ľuďom viac páči alebo viac spĺňa pravidlá.
- Analógia s trénerom: tréner ti nehovorí len „tu máš riešenie“, ale dáva spätnú väzbu typu „toto je dobrý smer, toto je risk, toto je mimo“. Model sa tak učí preferencie, nielen fakty.
- Prečo to vzniklo: modely trénované len na predikciu ďalšieho slova môžu byť plynulé, ale nie vždy užitočné v dialógu, bezpečné pri citlivých témach a konzistentné v štýle.
RLHF nie je „pridanie znalostí“. Vedomosti si model osvojí pri predtréningu — RLHF len tvaruje správanie, teda spôsob, akým tie vedomosti podáva.
2. Tri fázy tréningu LLM (kde je RLHF)
Moderný asistent vznikne typicky v troch krokoch:
- Pretraining: model sa naučí jazyk a fakty z obrovského korpusu textu (predikcia ďalšieho tokenu).
- Supervised fine-tuning (SFT): doladenie na kurátorovaných pároch inštrukcia → vzorová odpoveď.
- RLHF / preferenčné ladenie: finálne tvarovanie cez ľudské preferencie.
RLHF prichádza až na konci — preto sa o ňom hovorí ako o „alignment“ vrstve.
3. Ako RLHF funguje krok za krokom
a) Zber promptov a generovanie kandidátov
Vyberie sa sada promptov a model k nim vygeneruje viac odpovedí.
b) Ľudské porovnávanie
Hodnotitelia vyberú, ktorá odpoveď je lepšia podľa kritérií: užitočnosť, správnosť, bezpečnosť, slušnosť, jasnosť. Najčastejšie ide o párové porovnania (A vs. B), nie o absolútne známky — ľudia sú v porovnávaní spoľahlivejší.
c) Tréning reward modelu
Z preferencií sa natrénuje reward model (RM), ktorý vie každej odpovedi priradiť skóre „ako veľmi sa páči“. Zjednodušená myšlienka straty (loss) pre RM:
import torch
import torch.nn.functional as F
# r_chosen / r_rejected = skóre reward modelu pre preferovanú a zamietnutú odpoveď
def reward_loss(r_chosen, r_rejected):
# chceme, aby preferovaná odpoveď mala vyššie skóre než zamietnutá
return -F.logsigmoid(r_chosen - r_rejected).mean()
d) Optimalizácia politiky (RL krok)
Hlavný model (policy) sa doladí tak, aby maximalizoval odmenu z RM. Najčastejším algoritmom bol PPO (Proximal Policy Optimization). Aby sa model „nezbláznil“ a nezačal vyrábať bizarné texty s vysokou odmenou, pridáva sa KL penalizácia — trest za prílišnú odchýlku od pôvodného (SFT) modelu.
cieľ ≈ E[ reward(odpoveď) ] − β · KL(policy ‖ referenčný_model)
\_____________/ \________________________/
„páč sa ľuďom“ „neuleť od rozumného jazyka“
4. DPO a novšie alternatívy
Klasické RLHF s PPO je výpočtovo náročné a krehké. Preto vznikli jednoduchšie metódy:
- DPO (Direct Preference Optimization): preskočí samostatný reward model aj RL slučku — optimalizuje priamo na preferenčných pároch jednou loss funkciou. Stabilnejšie a lacnejšie.
- RLAIF (RL from AI Feedback): časť hodnotenia robí model namiesto človeka, čím sa proces škáluje. Úzko súvisí s prístupom Constitutional AI.
- KTO, ORPO a ďalšie: variácie, ktoré menia, ako sa preferencie zbierajú a kombinujú.
Pojem „RLHF“ sa dnes často používa zastrešujúco pre celé preferenčné ladenie, aj keď konkrétny tím môže reálne používať DPO alebo RLAIF.
5. Prečo je to dôležité / kde sa to používa
- Chat rozhrania: bez preferenčného učenia býva model „encyklopedický“, ale nie „konverzačný“.
- Bezpečnostné správanie: RLHF pomáha nastaviť hranice, čo model má a nemá robiť — vrátane správania spomínaného pri reasoning modeloch.
- Zrozumiteľnosť: ľudia preferujú odpovede, ktoré sú štruktúrované, konkrétne a priamočiare — a model sa to naučí.
- V praxi: prakticky každý moderný asistent (vrátane modelov ako GPT, Gemini či Grok) má nejakú formu preferenčného dolaďovania.
6. Výhody a obmedzenia
| Oblasť | Výhody | Obmedzenia |
|---|---|---|
| Kvalita dialógu | Užitočnejšie a čitateľnejšie odpovede | Riziko „príliš uhladených“ odpovedí na úkor faktov |
| Bezpečnosť | Lepšie odmietania a citlivosť na riziká | Môže vzniknúť prehnaná opatrnosť (over-refusal) |
| Náklady | Preferencie sa dajú škálovať cez procesy | Ľudské hodnotenie je drahé a nekonzistentné |
| Bias | Vieš cielene preferovať žiadaný štýl | Preferencie nesú ľudské predsudky a kultúrne normy |
Hlavné pasce
- Reward hacking: model sa naučí „vyzerať správne“, nie byť správny — napríklad znieť sebavedomo aj pri neistote.
- Sycophancy: snaha páčiť sa hodnotiteľovi vedie k prikyvovaniu namiesto pravdy.
- Nezhoda cieľov: hodnotitelia nemusia mať rovnaké potreby ako koncový používateľ (expert vs. laik).
7. Praktické použitie
Pre bežného používateľa
RLHF je dôvod, prečo model často vysvetľuje krok po kroku, pýta si upresnenie a odmietne rizikové požiadavky. Vieš to ovplyvniť promptom:
- Špecifikuj cieľ: „Chcem stručnú odpoveď v bodoch, bez omáčky.“
- Uveď neistotu: „Ak si nie si istý, povedz to a navrhni, čo overiť.“
- Daj preferenciu štýlu: „Nechcem moralizovanie, len praktické odporúčania.“
Pre builderov (aplikácie, interní asistenti)
- Jasné rubriky hodnotenia: aby preferencie neboli „podľa nálady“.
- Oddelené testy: bezpečnosť zvlášť, užitočnosť zvlášť — inak sa to zle ladí.
- Monitoring v produkcii: RLHF nie je „koniec“; správanie sa mení podľa reálnych vstupov používateľov.
- Zvážiť DPO: ak nemáš infraštruktúru na PPO, DPO dá podobný efekt jednoduchšie.
8. Súvislosti
RLHF je len jeden nástroj v širšej oblasti alignmentu. Doplnkové či alternatívne prístupy:
- Constitutional AI — riadenie cez explicitné princípy a sebakritiku modelu.
- Red-teaming a evals — systematické testovanie hraníc správania.
- System prompty — rýchle tvarovanie správania bez pretrénovania.
Zhrnutie
- RLHF nastavuje správanie modelu cez ľudské preferencie, nie len cez „správne odpovede“.
- Beží v krokoch: zber preferencií → reward model → optimalizácia politiky (PPO) s KL penalizáciou.
- Novšie metódy ako DPO a RLAIF robia proces lacnejším a stabilnejším.
- Prináša lepšiu konverzáciu a bezpečnostné hranice, ale hrozí reward hacking, sycophancy a bias.
- V praxi pomáha, keď v promte jasne povieš, aký štýl a akú mieru istoty chceš.