Mechanistická interpretabilita: Čo sa skrýva v neurónových sieťach
Mechanistická interpretabilita je výskumný smer, ktorý sa snaží pochopiť, čo presne sa deje vnútri neurónových sietí — nie len čo produkujú, ale prečo. V ére čoraz výkonnejších AI systémov ide o jednu z najdôležitejších vedeckých aj bezpečnostných výziev súčasnosti.
1. Čo je mechanistická interpretabilita
Moderné jazykové modely obsahujú miliardy parametrov — čísel, ktoré spoločne určujú ich správanie. Ale čo tieto čísla vlastne robia? Interpretabilita (alebo vysvetliteľnosť AI, angl. Explainable AI / XAI) sa snaží odpovedať práve na túto otázku.
Mechanistická interpretabilita ide ešte hlbšie: nechce len vedieť že model produkuje určitý výstup, chce pochopiť mechanizmus — konkrétne obvody, neurónové aktivácie a interné algoritmy, ktoré k tomuto výstupu vedú.
Kľúčové pojmy:
- Neurón — základná výpočtová jednotka siete; aktivuje sa pri určitých vstupoch
- Vlastnosť (feature) — koncept, ktorý sieť interne reprezentuje (napr. „Paríž", „mužskosť", „klamstvo")
- Obvodová analýza (circuit analysis) — sledovanie, ako skupiny neurónov spolupracujú pri konkrétnej úlohe
- Superpozícia (superposition) — jav, kedy jeden neurón kóduje viacero rôznych, nesúvisiacich konceptov naraz, čo analýzu komplikuje
2. Prečo to záleží práve teraz
Problém je principiálny: keď nevieme, čo model robí „vnútri", nevieme ani zaručiť, že bude správať sa bezpečne. Sieť môže mať vnútorné reprezentácie zodpovedajúce nebezpečným konceptom, pričom navonok vyzerá v poriadku. Bez interpretabilty sme pri bezpečnostnom audite odkázaní na testovanie správania — nie pochopenie príčiny.
Výskum mechanistickej interpretability má preto priamy dopad na niekoľko oblastí:
- AI bezpečnosť — identifikácia potenciálne škodlivých vnútorných stavov ešte pred nasadením modelu
- Debugovanie — pochopenie, prečo model zlyháva na konkrétnych vstupoch alebo prejavuje nechcené správanie
- Regulácia a auditovateľnosť — regulátori aj firemní zákazníci čoraz častejšie vyžadujú pochopiteľné systémy, nie čierne skrinky
- Základný výskum — budovanie skutočnej teórie toho, čo sa veľké modely naučili a akými algoritmami uvažujú
3. Hlavné metódy a kto ich rozvíja
| Metóda | Čo skúma | Hlavní výskumníci |
|---|---|---|
| Probing | Trénuje malý klasifikátor na aktiváciách; testuje, čo vrstva „vie" | Široko, akademia |
| Activation Patching | Chirurgicky upravuje aktivácie a meria zmenu výstupu | Anthropic, EleutherAI |
| Sparse Autoencoders (SAE) | Rozkladá husté aktivácie na riedky súčet interpretovateľných vlastností | Anthropic, DeepMind |
| Logit Lens | Vizualizuje „priebežné predpovede" v každej vrstve transformera | EleutherAI |
| Circuit Analysis | Mapuje konkrétne podsiete zodpovedné za špecifické úlohy | Anthropic, MIT, Oxford |
| Attention Visualization | Sleduje, na ktoré tokeny sa vrstva pozornosti zameriava | Široko |
Najsľubnejšou metódou v rokoch 2025–2026 sú Sparse Autoencoders (SAE): externé siete trénované tak, aby rozložili hustú aktiváciu skrytej vrstvy modelu na riedky súčet interpretovateľných vlastností. Výsledkom sú desiatky tisíc „ľudsky čitateľných" vlastností — každá zodpovedá nejakému konceptu, slovu, emócii alebo vzoru v dátach.
4. Konkrétne výsledky: Čo sme sa dozvedeli
Výskumníci z Anthropic v roku 2024 publikovali prácu Scaling Monosemanticity, v ktorej pomocou SAE identifikovali viac ako 34 miliónov vlastností v modeli Claude Sonnet. Výsledky boli prekvapivé:
- Vlastnosť „Asistent" — aktívna pri všetkých situáciách, kde model vystupuje v pomocnej roli; jej umelé potlačenie mení charakter odpovedí
- Vlastnosti zodpovedajúce krajinám, jazykom, historickým osobnostiam či abstraktným konceptom ako „oklamanie" alebo „strach"
- Experiment „Golden Gate Claude": umelé posilnenie jedinej vlastnosti (Golden Gate Bridge) spôsobilo, že model o tomto moste hovoril pri každej príležitosti — vrátane otázok, ktoré s tým vôbec nesúviseli
Projekt Neuronpedia (neuronpedia.org) tieto výsledky zverejňuje pre open-source modely a umožňuje komunitné anotovanie vlastností.
Paralelne, DeepMind a tímy na MIT a Stanforde mapujú konkrétne algoritmy: napríklad dokázali, že malé modely pri sčítaní celých čísel používajú niečo štrukturálne podobné Fourierovej analýze — čistý matematický algoritmus zakódovaný v hmotnostiach siete.
5. Limity a otvorené otázky
Mechanistická interpretabilita je napriek rýchlemu pokroku stále v ranom štádiu. Čelí niekoľkým zásadným výzvam:
Škálovanie — väčšina presvedčivých výsledkov pochádza z malých modelov alebo izolovaných vrstiev. Aplikovanie rovnakých metód na modely s biliónom parametrov je výpočtovo a analyticky násobne náročnejšie.
Kauzalita verzus korelácia — identifikovať, že neurón „kóduje" určitý koncept, ešte neznamená, že ho kauzálne používa pri generovaní výstupu. Táto medzera je kľúčová pre bezpečnostné závery.
Superpozícia — neuróny bežne kódujú viacero nesúvisiacich konceptov súčasne. Dekódovanie týchto zmiešaných signálov je matematicky náročné a výsledky nie sú vždy jednoznačné.
Verifikácia — ako overíme, že naša interpretácia vlastnosti je správna? Neexistuje objektívny „ground truth". Čiastočným riešením je activation patching — ak predpokladaná vlastnosť naozaj spôsobuje správanie, jej umele potlačenie alebo posilnenie by malo správanie zmeniť predvídateľným spôsobom.
Vzdialený cieľ — najambicióznejšia vízia oblasti, úplné mechanistické pochopenie celého veľkého modelu, zostáva vzdialená. Ale čiastkové výsledky — pochopenie konkrétnych obvodov, detekcia rizikových vnútorných stavov, overovanie bezpečnostných vlastností — sú dosiahnuteľné a prinášajú reálnu hodnotu už dnes.
6. Activation patching v princípe
Najpriamejší test kauzality („naozaj táto vlastnosť spôsobuje správanie?") je chirurgicky zmeniť aktiváciu a sledovať dopad:
# zachyť aktiváciu na čistom vstupe, vlož ju do „pokazeného" behu
clean_act = run_with_cache(model, clean_prompt)[layer]
def patch(activation):
activation[layer] = clean_act # nahraď aktiváciu
return activation
out = run_with_hook(model, corrupted_prompt, hook=patch)
# ak sa výstup posunie k „čistému", daná vrstva/feature je kauzálne dôležitá
To je rozdiel medzi „neurón koreluje s konceptom" a „neurón ho kauzálne používa".
7. Súvislosti
- AI Alignment: interpretabilita je nástroj na detekciu klamlivého (deceptive) zarovnania.
- Attention: vizualizácia pozornosti je jedna z metód analýzy obvodov.
- Emergentné vlastnosti: pomáha pochopiť, čo presne sa „objaví" pri škálovaní.
- Guardrails: dlhodobý cieľ je audit vnútorných stavov, nie len výstupov.
Zhrnutie: Mechanistická interpretabilita je most medzi výkonnosťou a dôveryhodnosťou AI — bez porozumenia vnútorným mechanizmom neurónových sietí nemôžeme plnohodnotne garantovať ich bezpečnosť ani predvídať ich správanie v nových situáciách. Výskum v tejto oblasti rastie rýchlo a jeho výsledky budú čoraz viac formovať, ako sa veľké modely auditujú, regulujú a nasadzujú.