RLHF

RLHF (Reinforcement Learning from Human Feedback) je tréningový prístup, kde sa model učí z ľudských preferencií: ľudia porovnávajú odpovede a model sa nastaví tak, aby častejšie produkoval tie „lepšie“ — užitočnejšie, bezpečnejšie a viac v očakávanom štýle. Je to jedna z kľúčových techník, vďaka ktorej sa zo „surového“ jazykového modelu stane použiteľný asistent.


1. Čo to je (definícia + analógia)

  • Jadro: namiesto „jednej správnej odpovede“ učíš model, ktorá odpoveď sa ľuďom viac páči alebo viac spĺňa pravidlá.
  • Analógia s trénerom: tréner ti nehovorí len „tu máš riešenie“, ale dáva spätnú väzbu typu „toto je dobrý smer, toto je risk, toto je mimo“. Model sa tak učí preferencie, nielen fakty.
  • Prečo to vzniklo: modely trénované len na predikciu ďalšieho slova môžu byť plynulé, ale nie vždy užitočné v dialógu, bezpečné pri citlivých témach a konzistentné v štýle.

RLHF nie je „pridanie znalostí“. Vedomosti si model osvojí pri predtréningu — RLHF len tvaruje správanie, teda spôsob, akým tie vedomosti podáva.


2. Tri fázy tréningu LLM (kde je RLHF)

Moderný asistent vznikne typicky v troch krokoch:

  1. Pretraining: model sa naučí jazyk a fakty z obrovského korpusu textu (predikcia ďalšieho tokenu).
  2. Supervised fine-tuning (SFT): doladenie na kurátorovaných pároch inštrukcia → vzorová odpoveď.
  3. RLHF / preferenčné ladenie: finálne tvarovanie cez ľudské preferencie.

RLHF prichádza až na konci — preto sa o ňom hovorí ako o „alignment“ vrstve.


3. Ako RLHF funguje krok za krokom

a) Zber promptov a generovanie kandidátov

Vyberie sa sada promptov a model k nim vygeneruje viac odpovedí.

b) Ľudské porovnávanie

Hodnotitelia vyberú, ktorá odpoveď je lepšia podľa kritérií: užitočnosť, správnosť, bezpečnosť, slušnosť, jasnosť. Najčastejšie ide o párové porovnania (A vs. B), nie o absolútne známky — ľudia sú v porovnávaní spoľahlivejší.

c) Tréning reward modelu

Z preferencií sa natrénuje reward model (RM), ktorý vie každej odpovedi priradiť skóre „ako veľmi sa páči“. Zjednodušená myšlienka straty (loss) pre RM:

import torch
import torch.nn.functional as F

# r_chosen / r_rejected = skóre reward modelu pre preferovanú a zamietnutú odpoveď
def reward_loss(r_chosen, r_rejected):
    # chceme, aby preferovaná odpoveď mala vyššie skóre než zamietnutá
    return -F.logsigmoid(r_chosen - r_rejected).mean()

d) Optimalizácia politiky (RL krok)

Hlavný model (policy) sa doladí tak, aby maximalizoval odmenu z RM. Najčastejším algoritmom bol PPO (Proximal Policy Optimization). Aby sa model „nezbláznil“ a nezačal vyrábať bizarné texty s vysokou odmenou, pridáva sa KL penalizácia — trest za prílišnú odchýlku od pôvodného (SFT) modelu.

cieľ ≈ E[ reward(odpoveď) ]  −  β · KL(policy ‖ referenčný_model)
        \_____________/         \________________________/
         „páč sa ľuďom“          „neuleť od rozumného jazyka“

4. DPO a novšie alternatívy

Klasické RLHF s PPO je výpočtovo náročné a krehké. Preto vznikli jednoduchšie metódy:

  • DPO (Direct Preference Optimization): preskočí samostatný reward model aj RL slučku — optimalizuje priamo na preferenčných pároch jednou loss funkciou. Stabilnejšie a lacnejšie.
  • RLAIF (RL from AI Feedback): časť hodnotenia robí model namiesto človeka, čím sa proces škáluje. Úzko súvisí s prístupom Constitutional AI.
  • KTO, ORPO a ďalšie: variácie, ktoré menia, ako sa preferencie zbierajú a kombinujú.

Pojem „RLHF“ sa dnes často používa zastrešujúco pre celé preferenčné ladenie, aj keď konkrétny tím môže reálne používať DPO alebo RLAIF.


5. Prečo je to dôležité / kde sa to používa

  • Chat rozhrania: bez preferenčného učenia býva model „encyklopedický“, ale nie „konverzačný“.
  • Bezpečnostné správanie: RLHF pomáha nastaviť hranice, čo model má a nemá robiť — vrátane správania spomínaného pri reasoning modeloch.
  • Zrozumiteľnosť: ľudia preferujú odpovede, ktoré sú štruktúrované, konkrétne a priamočiare — a model sa to naučí.
  • V praxi: prakticky každý moderný asistent (vrátane modelov ako GPT, Gemini či Grok) má nejakú formu preferenčného dolaďovania.

6. Výhody a obmedzenia

Oblasť Výhody Obmedzenia
Kvalita dialógu Užitočnejšie a čitateľnejšie odpovede Riziko „príliš uhladených“ odpovedí na úkor faktov
Bezpečnosť Lepšie odmietania a citlivosť na riziká Môže vzniknúť prehnaná opatrnosť (over-refusal)
Náklady Preferencie sa dajú škálovať cez procesy Ľudské hodnotenie je drahé a nekonzistentné
Bias Vieš cielene preferovať žiadaný štýl Preferencie nesú ľudské predsudky a kultúrne normy

Hlavné pasce

  • Reward hacking: model sa naučí „vyzerať správne“, nie byť správny — napríklad znieť sebavedomo aj pri neistote.
  • Sycophancy: snaha páčiť sa hodnotiteľovi vedie k prikyvovaniu namiesto pravdy.
  • Nezhoda cieľov: hodnotitelia nemusia mať rovnaké potreby ako koncový používateľ (expert vs. laik).

7. Praktické použitie

Pre bežného používateľa

RLHF je dôvod, prečo model často vysvetľuje krok po kroku, pýta si upresnenie a odmietne rizikové požiadavky. Vieš to ovplyvniť promptom:

  • Špecifikuj cieľ: „Chcem stručnú odpoveď v bodoch, bez omáčky.“
  • Uveď neistotu: „Ak si nie si istý, povedz to a navrhni, čo overiť.“
  • Daj preferenciu štýlu: „Nechcem moralizovanie, len praktické odporúčania.“

Pre builderov (aplikácie, interní asistenti)

  • Jasné rubriky hodnotenia: aby preferencie neboli „podľa nálady“.
  • Oddelené testy: bezpečnosť zvlášť, užitočnosť zvlášť — inak sa to zle ladí.
  • Monitoring v produkcii: RLHF nie je „koniec“; správanie sa mení podľa reálnych vstupov používateľov.
  • Zvážiť DPO: ak nemáš infraštruktúru na PPO, DPO dá podobný efekt jednoduchšie.

8. Súvislosti

RLHF je len jeden nástroj v širšej oblasti alignmentu. Doplnkové či alternatívne prístupy:

  • Constitutional AI — riadenie cez explicitné princípy a sebakritiku modelu.
  • Red-teaming a evals — systematické testovanie hraníc správania.
  • System prompty — rýchle tvarovanie správania bez pretrénovania.

Zhrnutie

  • RLHF nastavuje správanie modelu cez ľudské preferencie, nie len cez „správne odpovede“.
  • Beží v krokoch: zber preferencií → reward model → optimalizácia politiky (PPO) s KL penalizáciou.
  • Novšie metódy ako DPO a RLAIF robia proces lacnejším a stabilnejším.
  • Prináša lepšiu konverzáciu a bezpečnostné hranice, ale hrozí reward hacking, sycophancy a bias.
  • V praxi pomáha, keď v promte jasne povieš, aký štýl a akú mieru istoty chceš.