Constitutional AI

Constitutional AI (CAI) je prístup k tréningu jazykových modelov, kde sa model riadi súborom princípov („ústavou“) a učí sa odpovedať užitočne a zároveň bezpečnejšie — s menšou závislosťou od toho, aby človek ručne hodnotil každú odpoveď. Metódu spopularizovala spoločnosť Anthropic ako spôsob, ako škálovať bezpečnosť modelov bez nutnosti obrovského množstva ľudských anotácií škodlivého obsahu.

1. Čo to je (definícia + analógia)

Ústava pre AI: namiesto toho, aby človek hodnotil každú odpoveď, definuješ pravidlá typu „neubližuj“, „buď úprimný“, „rešpektuj súkromie“.
Analógia s firemným manuálom: keď nastúpiš do práce, nedostaneš tisíce ručných opráv ku každej vete — dostaneš zásady a príklady, podľa ktorých sa rozhoduješ sám.
Cieľ: spraviť správanie modelu predvídateľnejším pri citlivých témach, bez toho, aby bol zbytočne „zabetónovaný“.
Nie je to len filtrácia: nejde o blokovanie slov, ale o učenie preferovaného štýlu rozhodovania.

2. Vzťah k RLHF

Klasický RLHF potrebuje veľa ľudí, ktorí porovnávajú odpovede — najmä pri bezpečnostných témach, kde anotácia škodlivého obsahu je náročná a psychicky zaťažujúca. CAI tento problém obchádza tým, že časť spätnej väzby generuje sám model podľa ústavy. Preto sa pre RL fázu používa pojem RLAIF (Reinforcement Learning from AI Feedback) — namiesto ľudského hodnotiteľa skóruje odpovede model riadený princípmi.

Stručne: RLHF = preferencie od ľudí. CAI/RLAIF = preferencie odvodené od písomne zadaných princípov, ktoré aplikuje model.

3. Ako to funguje (dve fázy)

Fáza 1 — Supervised (sebakritika a revízia)

Princípy (ústava): spíše sa sada pravidiel, často stručných, niekedy s príkladmi.
Generovanie odpovede: model vyprodukuje prvú verziu.
Sebakritika (kritik): model zhodnotí vlastnú odpoveď podľa princípov — „tu dávam návod na škodlivú vec“, „tu si vymýšľam“, „tu prezrádzam osobné údaje“.
Revízia (editor): model vytvorí upravenú odpoveď, ktorá lepšie zodpovedá ústave.
Doladenie: model sa pretrénuje na týchto revidovaných odpovediach.

Fáza 2 — RL z AI spätnej väzby (RLAIF)

Model generuje dvojice odpovedí.
Hodnotiaci model (riadený ústavou) vyberie, ktorá lepšie spĺňa princípy.
Z týchto AI-preferencií sa natrénuje reward model a politika sa optimalizuje — analogicky k RLHF, len bez ľudského anotátora v slučke.

4. Ako vyzerá „ústava“

Ústava je zoznam princípov v prirodzenom jazyku. Zjednodušený príklad pravidiel, ktoré by si model mal pri sebakritike klásť:

1. Vyber odpoveď, ktorá je menej škodlivá, neetická alebo nebezpečná.
2. Uprednostni odpoveď, ktorá je úprimná a nezavádza.
3. Rešpektuj súkromie — neopakuj a neodhaľuj osobné údaje.
4. Ak je požiadavka riziková, ponúkni bezpečnú alternatívu namiesto odmietnutia bez pomoci.
5. Vyhni sa neúprimnému prikyvovaniu (sycophancy) len preto, aby si sa zapáčil.

Princípy môžu čerpať z rôznych zdrojov — napr. z ľudskoprávnych dokumentov, etických kódexov či z best-practice pre danú doménu.

5. Prečo je to dôležité / kde sa to používa

Škálovanie bezpečnosti: ľudské hodnotenie je drahé a pomalé; pravidlá sa dajú rozširovať a testovať systematicky.
Konzistentnejšie správanie: rovnaké princípy naprieč témami, takže model menej „prekvapuje“.
Vysvetliteľnosť zámeru: vieš pomenovať, prečo sa model správa istým spôsobom — lebo dodržiava konkrétne pravidlo.
Menej záťaže na anotátorov: ľudia nemusia prechádzať obrovské množstvo toxického obsahu.

Typické nasadenia

Chatboti v podpore, kde nechceš únik interných informácií.
Vzdelávacie nástroje, kde chceš minimalizovať halucinácie a zlé rady.
Firemné aplikácie s požiadavkou na štýl a compliance (napr. „neponúkaj právne rady ako právnik“).

6. Výhody a obmedzenia

Oblasť	Výhody	Obmedzenia
Riadenie správania	Princípy sú zrozumiteľné a upraviteľné	Konflikty princípov (užitočnosť vs. bezpečnosť) treba riešiť
Náklady	Menej ručného hodnotenia v niektorých fázach	Stále treba testovanie a kvalitný dizajn pravidiel
Robustnosť	Model sa učí „myslieť“ v rámci zásad	Ústava sa dá obísť zlým promptom, ak systém nie je dobre postavený
Kvalita odpovedí	Pomáha pri sebakorekcii a štýle	Môže viesť k prehnaným odmietnutiam

Najčastejší problém: zle napísané pravidlá. Ak je ústava vágna („buď dobrý“), model si to vyloží po svojom.
Riziko ututlania zámeru: model sa môže naučiť znieť bezpečne bez reálnej zmeny správania — preto je nutný red-teaming.

7. Praktické použitie (čo to znamená pre teba)

Pre bežného používateľa

Keď vidíš, že model „sám seba opraví“ alebo pridá opatrnejšiu formuláciu, často ide o mechanizmy tohto typu.

Vlastná mini-ústava pre tím

Ak máš interného chatbota, pomáha mať 5–15 jasných pravidiel:

Súkromie: „Nikdy neopakuj celé osobné údaje z konverzácie.“
Fakty: „Keď si neistý, povedz to a ponúkni, čo vieš overiť.“
Bezpečnosť: „Nedávaj návody na škodu, ale ponúkni bezpečné alternatívy.“

Trik do praxe (aj bez tréningu)

Princíp „kritika + revízia“ vieš použiť priamo v promte aj na hotovom modeli:

Najprv odpovedz na otázku.
Potom skontroluj svoju odpoveď podľa týchto bodov: [zoznam princípov].
Ak niektorý porušuje, prepíš odpoveď a vráť len opravenú verziu.

Kedy sa neoplatí: pri úlohách s dôrazom na maximálnu kreativitu môže príliš tvrdá ústava odpovede „zrovnať“.

8. Súvislosti

RLHF — preferenčné ladenie od ľudí; CAI ho dopĺňa AI spätnou väzbou.
Reasoning modely — interné uvažovanie sa dá kombinovať so sebakritikou podľa ústavy.
Alignment vo všeobecnosti — CAI je jeden z viacerých nástrojov, nie univerzálne riešenie.

Zhrnutie

Constitutional AI učí model správať sa podľa explicitných princípov, nie len podľa množstva ručných hodnotení.
Beží v dvoch fázach: sebakritika + revízia, potom RLAIF (RL z AI spätnej väzby).
Silná stránka je škálovanie a konzistentnosť; slabina je závislosť na dobre napísanej ústave a na robustnom testovaní proti obchádzaniu.
Myšlienku „kritika + revízia“ vieš použiť aj bez tréningu — priamo v promte.