RLHF
RLHF (Reinforcement Learning from Human Feedback) je tréningový prístup, kde sa model učí z ľudských preferencií: ľudia porovnávajú odpovede a model sa nastaví tak, aby častejšie produkoval tie „lepšie“ — užitočnejšie, bezpečnejšie a viac v očakávanom štýle.
1. Čo to je (definícia + analógia)
Jadro: namiesto „správnej odpovede“ učíš model, ktorá odpoveď sa ľuďom viac páči alebo viac spĺňa pravidlá.
Analógia s trénerom: tréner ti nehovorí len „tu máš riešenie“, ale dáva spätnú väzbu typu „toto je dobrý smer, toto je risk, toto je mimo“.
Prečo to vzniklo: čisté modely trénované len na predikciu textu môžu byť plynulé, ale nie vždy:
užitočné pre dialóg,
bezpečné pri citlivých témach,
konzistentné v štýle.
2. Ako to funguje
Zber príkladov: vyberú sa prompty (otázky) a model vygeneruje viac odpovedí.
Ľudské porovnávanie: hodnotitelia vyberú, ktorá odpoveď je lepšia podľa kritérií:
- Užitočnosť, správnosť, bezpečnosť, slušnosť, jasnosť.
Reward model: z preferencií sa natrénuje model odmeny, ktorý vie odhadnúť „ako veľmi sa odpoveď páči“.
Reinforcement learning krok: hlavný model sa optimalizuje tak, aby maximalizoval odmenu.
- Prakticky: model sa učí vyrábať odpovede, ktoré by dostali lepšie hodnotenie.
Dolaďovanie správania: typicky sa rieši aj:
odmietanie škodlivých požiadaviek,
priznanie neistoty,
dodržiavanie formátu.
3. Prečo je to dôležité / kde sa to používa
Chat rozhrania: bez preferenčného učenia býva model „encyklopedický“, ale nie „konverzačný“.
Bezpečnostné správanie: RLHF pomáha nastaviť hranice, čo model má a nemá robiť.
Zrozumiteľnosť: ľudia často preferujú odpovede, ktoré sú:
- štruktúrované, konkrétne, priamočiare.
V praxi: väčšina moderných asistentov má nejakú formu preferenčného dolaďovania, aj keď názov metódy sa líši.
4. Výhody a obmedzenia
| Oblasť | Výhody | Obmedzenia |
|---|---|---|
| Kvalita dialógu | Viac užitočné a čitateľné odpovede | Riziko „príliš uhladených“ odpovedí na úkor faktov |
| Bezpečnosť | Lepšie odmietania a citlivosť na riziká | Môže vzniknúť prehnaná opatrnosť (over-refusal) |
| Náklady | Preferencie sa dajú škálovať cez procesy | Ľudské hodnotenie je drahé a môže byť nekonzistentné |
| Bias | Vieš cielene preferovať žiadaný štýl | Preferencie nesú ľudské predsudky a kultúrne normy |
Reward hacking: model sa môže naučiť „vyzerať správne“, nie byť správny — napríklad znieť sebavedomo aj pri neistote.
Nezhoda s tvojimi cieľmi: hodnotitelia nemusia mať rovnaké potreby ako ty (napr. expert vs. laik).
5. Praktické použitie
Pre bežného používateľa: RLHF je dôvod, prečo model často:
radšej vysvetľuje krok po kroku,
pýta si upresnenie,
odmietne rizikové požiadavky.
Ako s tým pracovať v promtoch:
Špecifikuj cieľ: „Chcem stručnú odpoveď v bodoch, bez omáčky.“
Uveď obmedzenia: „Ak si nie si istý, povedz to a navrhni, čo overiť.“
Daj preferenciu štýlu: „Nechcem moralizovanie, len praktické odporúčania.“
Pre builderov (aplikácie, interní asistenti):
Jasné rubriky hodnotenia: aby preferencie neboli „podľa nálady“.
Oddelené testy: bezpečnosť zvlášť, užitočnosť zvlášť — inak sa to zle ladí.
Monitoring v produkcii: RLHF nie je „koniec“, lebo správanie sa mení podľa vstupov používateľov.
Zhrnutie
RLHF nastavuje správanie modelu cez ľudské preferencie, nie len cez „správne odpovede“.
Prináša lepšiu konverzáciu a bezpečnostné hranice, ale môže viesť k prehnanej opatrnosti.
Najväčšie riziká sú reward hacking a bias v hodnotení.
V praxi ti pomôže, keď v promte jasne povieš, aký štýl a akú mieru istoty chceš.