RLHF

RLHF (Reinforcement Learning from Human Feedback) je tréningový prístup, kde sa model učí z ľudských preferencií: ľudia porovnávajú odpovede a model sa nastaví tak, aby častejšie produkoval tie „lepšie“ — užitočnejšie, bezpečnejšie a viac v očakávanom štýle.

1. Čo to je (definícia + analógia)

  • Jadro: namiesto „správnej odpovede“ učíš model, ktorá odpoveď sa ľuďom viac páči alebo viac spĺňa pravidlá.

  • Analógia s trénerom: tréner ti nehovorí len „tu máš riešenie“, ale dáva spätnú väzbu typu „toto je dobrý smer, toto je risk, toto je mimo“.

  • Prečo to vzniklo: čisté modely trénované len na predikciu textu môžu byť plynulé, ale nie vždy:

    • užitočné pre dialóg,

    • bezpečné pri citlivých témach,

    • konzistentné v štýle.


2. Ako to funguje

  • Zber príkladov: vyberú sa prompty (otázky) a model vygeneruje viac odpovedí.

  • Ľudské porovnávanie: hodnotitelia vyberú, ktorá odpoveď je lepšia podľa kritérií:

    • Užitočnosť, správnosť, bezpečnosť, slušnosť, jasnosť.
  • Reward model: z preferencií sa natrénuje model odmeny, ktorý vie odhadnúť „ako veľmi sa odpoveď páči“.

  • Reinforcement learning krok: hlavný model sa optimalizuje tak, aby maximalizoval odmenu.

    • Prakticky: model sa učí vyrábať odpovede, ktoré by dostali lepšie hodnotenie.
  • Dolaďovanie správania: typicky sa rieši aj:

    • odmietanie škodlivých požiadaviek,

    • priznanie neistoty,

    • dodržiavanie formátu.


3. Prečo je to dôležité / kde sa to používa

  • Chat rozhrania: bez preferenčného učenia býva model „encyklopedický“, ale nie „konverzačný“.

  • Bezpečnostné správanie: RLHF pomáha nastaviť hranice, čo model má a nemá robiť.

  • Zrozumiteľnosť: ľudia často preferujú odpovede, ktoré sú:

    • štruktúrované, konkrétne, priamočiare.
  • V praxi: väčšina moderných asistentov má nejakú formu preferenčného dolaďovania, aj keď názov metódy sa líši.


4. Výhody a obmedzenia

Oblasť Výhody Obmedzenia
Kvalita dialógu Viac užitočné a čitateľné odpovede Riziko „príliš uhladených“ odpovedí na úkor faktov
Bezpečnosť Lepšie odmietania a citlivosť na riziká Môže vzniknúť prehnaná opatrnosť (over-refusal)
Náklady Preferencie sa dajú škálovať cez procesy Ľudské hodnotenie je drahé a môže byť nekonzistentné
Bias Vieš cielene preferovať žiadaný štýl Preferencie nesú ľudské predsudky a kultúrne normy
  • Reward hacking: model sa môže naučiť „vyzerať správne“, nie byť správny — napríklad znieť sebavedomo aj pri neistote.

  • Nezhoda s tvojimi cieľmi: hodnotitelia nemusia mať rovnaké potreby ako ty (napr. expert vs. laik).


5. Praktické použitie

  • Pre bežného používateľa: RLHF je dôvod, prečo model často:

    • radšej vysvetľuje krok po kroku,

    • pýta si upresnenie,

    • odmietne rizikové požiadavky.

  • Ako s tým pracovať v promtoch:

    • Špecifikuj cieľ: „Chcem stručnú odpoveď v bodoch, bez omáčky.“

    • Uveď obmedzenia: „Ak si nie si istý, povedz to a navrhni, čo overiť.“

    • Daj preferenciu štýlu: „Nechcem moralizovanie, len praktické odporúčania.“

  • Pre builderov (aplikácie, interní asistenti):

    • Jasné rubriky hodnotenia: aby preferencie neboli „podľa nálady“.

    • Oddelené testy: bezpečnosť zvlášť, užitočnosť zvlášť — inak sa to zle ladí.

    • Monitoring v produkcii: RLHF nie je „koniec“, lebo správanie sa mení podľa vstupov používateľov.


Zhrnutie

  • RLHF nastavuje správanie modelu cez ľudské preferencie, nie len cez „správne odpovede“.

  • Prináša lepšiu konverzáciu a bezpečnostné hranice, ale môže viesť k prehnanej opatrnosti.

  • Najväčšie riziká sú reward hacking a bias v hodnotení.

  • V praxi ti pomôže, keď v promte jasne povieš, aký štýl a akú mieru istoty chceš.