RLHF

RLHF (Reinforcement Learning from Human Feedback) je tréningový prístup, kde sa model učí z ľudských preferencií: ľudia porovnávajú odpovede a model sa nastaví tak, aby častejšie produkoval tie „lepšie“ — užitočnejšie, bezpečnejšie a viac v očakávanom štýle.

1. Čo to je (definícia + analógia)

Jadro: namiesto „správnej odpovede“ učíš model, ktorá odpoveď sa ľuďom viac páči alebo viac spĺňa pravidlá.
Analógia s trénerom: tréner ti nehovorí len „tu máš riešenie“, ale dáva spätnú väzbu typu „toto je dobrý smer, toto je risk, toto je mimo“.
Prečo to vzniklo: čisté modely trénované len na predikciu textu môžu byť plynulé, ale nie vždy:
- užitočné pre dialóg,
- bezpečné pri citlivých témach,
- konzistentné v štýle.

2. Ako to funguje

Zber príkladov: vyberú sa prompty (otázky) a model vygeneruje viac odpovedí.
Ľudské porovnávanie: hodnotitelia vyberú, ktorá odpoveď je lepšia podľa kritérií:
- Užitočnosť, správnosť, bezpečnosť, slušnosť, jasnosť.
Reward model: z preferencií sa natrénuje model odmeny, ktorý vie odhadnúť „ako veľmi sa odpoveď páči“.
Reinforcement learning krok: hlavný model sa optimalizuje tak, aby maximalizoval odmenu.
- Prakticky: model sa učí vyrábať odpovede, ktoré by dostali lepšie hodnotenie.
Dolaďovanie správania: typicky sa rieši aj:
- odmietanie škodlivých požiadaviek,
- priznanie neistoty,
- dodržiavanie formátu.

3. Prečo je to dôležité / kde sa to používa

Chat rozhrania: bez preferenčného učenia býva model „encyklopedický“, ale nie „konverzačný“.
Bezpečnostné správanie: RLHF pomáha nastaviť hranice, čo model má a nemá robiť.
Zrozumiteľnosť: ľudia často preferujú odpovede, ktoré sú:
- štruktúrované, konkrétne, priamočiare.
V praxi: väčšina moderných asistentov má nejakú formu preferenčného dolaďovania, aj keď názov metódy sa líši.

4. Výhody a obmedzenia

Oblasť	Výhody	Obmedzenia
Kvalita dialógu	Viac užitočné a čitateľné odpovede	Riziko „príliš uhladených“ odpovedí na úkor faktov
Bezpečnosť	Lepšie odmietania a citlivosť na riziká	Môže vzniknúť prehnaná opatrnosť (over-refusal)
Náklady	Preferencie sa dajú škálovať cez procesy	Ľudské hodnotenie je drahé a môže byť nekonzistentné
Bias	Vieš cielene preferovať žiadaný štýl	Preferencie nesú ľudské predsudky a kultúrne normy

Reward hacking: model sa môže naučiť „vyzerať správne“, nie byť správny — napríklad znieť sebavedomo aj pri neistote.
Nezhoda s tvojimi cieľmi: hodnotitelia nemusia mať rovnaké potreby ako ty (napr. expert vs. laik).

5. Praktické použitie

Pre bežného používateľa: RLHF je dôvod, prečo model často:
- radšej vysvetľuje krok po kroku,
- pýta si upresnenie,
- odmietne rizikové požiadavky.
Ako s tým pracovať v promtoch:
- Špecifikuj cieľ: „Chcem stručnú odpoveď v bodoch, bez omáčky.“
- Uveď obmedzenia: „Ak si nie si istý, povedz to a navrhni, čo overiť.“
- Daj preferenciu štýlu: „Nechcem moralizovanie, len praktické odporúčania.“
Pre builderov (aplikácie, interní asistenti):
- Jasné rubriky hodnotenia: aby preferencie neboli „podľa nálady“.
- Oddelené testy: bezpečnosť zvlášť, užitočnosť zvlášť — inak sa to zle ladí.
- Monitoring v produkcii: RLHF nie je „koniec“, lebo správanie sa mení podľa vstupov používateľov.

Zhrnutie

RLHF nastavuje správanie modelu cez ľudské preferencie, nie len cez „správne odpovede“.
Prináša lepšiu konverzáciu a bezpečnostné hranice, ale môže viesť k prehnanej opatrnosti.
Najväčšie riziká sú reward hacking a bias v hodnotení.
V praxi ti pomôže, keď v promte jasne povieš, aký štýl a akú mieru istoty chceš.