Inductive Bias
Inductive Bias je sada „predpokladov“, ktoré má učiaci sa algoritmus zabudované, aby vedel z obmedzených dát odhadnúť niečo aj o prípadoch, ktoré ešte nevidel. Bez tohto biasu by sa model správal ako študent, ktorý sa naučí odpovede naspamäť, ale pri mierne inej otázke sa rozsype. Inductive bias je jedným z najdôležitejších — a najprehliadanejších — pojmov v strojovom učení.
1. Čo to je (definícia + analógia)
- Predpoklad navyše: model má vždy viac možných vysvetlení dát — inductive bias ho tlačí k niektorým riešeniam a od iných odrádza.
- Analógia – skladanie puzzle: keď skladáš puzzle a chýba polovica dielikov, aj tak „uhádneš“ oblohu vs. trávu podľa farby a vzoru. To je bias: preferuješ hladké plochy a známe štruktúry.
- Generalizácia: bias je dôvod, prečo model nefunguje len na tréningových príkladoch, ale aj na nových.
Formálne: dáta samy o sebe nikdy jednoznačne neurčia funkciu (vždy existuje nekonečne veľa kriviek cez tie isté body). Bias je to, čo z nich vyberie jednu.
2. Prečo bez biasu generalizácia nie je možná
Predstav si, že chceš predpovedať ďalšie číslo postupnosti 2, 4, 6, ?. „Zrejmá“ odpoveď je 8 — ale len preto, že predpokladáš jednoduchosť (lineárny vzor). Bez tohto predpokladu je 8 rovnako oprávnená ako 42. Tento princíp formálne zhŕňa No Free Lunch Theorem: bez predpokladov o probléme neexistuje univerzálne najlepší algoritmus.
3. Ako sa bias dostáva do modelu
- Výber priestoru riešení: algoritmus implicitne hovorí „hľadám riešenia tohto typu“ (hladké funkcie, jednoduchšie vysvetlenia, riedke váhy).
- Architektúra ako bias: to, či použiješ CNN, transformer alebo lineárny model, je obrovský bias — každý „verí“ inému typu štruktúry.
- Regularizácia: L2, dropout, early stopping, data augmentation tlačia model k stabilnejším, menej preučeným riešeniam.
- Predtrénovanie: model, ktorý videl veľa dát, si nesie bias z toho, čo považuje za „pravdepodobné“ v jazyku či obrazoch.
4. Architektúra = najsilnejší bias
CNN → „blízke pixely spolu súvisia“ (translačná invariancia)
RNN/LSTM → „záleží na poradí, blízke kroky viac“ (rekurencia)
Transformer → „ľubovoľné tokeny môžu súvisieť“ (attention, slabý bias)
GNN → „dôležitá je štruktúra grafu“ (permutačná invariancia)
Zaujímavosť: transformer má zámerne slabší inductive bias než CNN. Preto potrebuje viac dát — ale keď ich má, nie je obmedzený silnými predpokladmi a dosahuje špičkové výsledky. To je jeden z dôvodov, prečo veľké jazykové modely fungujú tak dobre pri obrovských dátach.
5. Orientačná mapa biasov
| Typ biasu | Čo preferuje | Kde to cítiš |
|---|---|---|
| Jednoduchosť | kratšie / hladšie vysvetlenia | menej overfitu, lepší „common sense“ |
| Lokalita (CNN) | blízke pixely spolu súvisia | detekcia hrán, textúr, objektov |
| Sekvencia/attention | závislosti medzi tokenmi | jazyk, kód, dlhé kontexty |
| Riedkosť | „použi málo parametrov“ | selekcia príznakov, stabilita |
| Invariancia | nezáleží na posune/rotácii | robustnosť voči transformáciám |
6. Príklad: bias cez regularizáciu
Aj pri rovnakej architektúre vieš bias meniť tréningom:
# weight decay = bias smerom k menším váham = jednoduchšie funkcie
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-3, weight_decay=1e-2)
# dropout = bias smerom k redundantným, robustným reprezentáciám
model = nn.Sequential(nn.Linear(256, 256), nn.ReLU(), nn.Dropout(0.3))
Tieto „drobné“ nastavenia rozhodujú, či model chytí štruktúru alebo šum — a úzko súvisia s fenoménom grokking, kde weight decay rozhoduje, či vôbec príde generalizácia.
7. Výhody a obmedzenia
- Výhody:
- Rýchlejšie učenie: so správnym biasom potrebuješ menej dát.
- Lepšia generalizácia: model sa menej lepí na šum.
- Predvídateľnejšie správanie: vieš lepšie odhadnúť, kedy zlyhá (mimo domény).
- Obmedzenia:
- Slepé miesta: zlý bias vedie k systematickým chybám.
- „Správny“ len pre niektoré úlohy: bias, ktorý pomáha na jednom type dát, môže škodiť inde.
- Závislosť od domény: bez doménovej znalosti vyberieš architektúru, ktorá dáva pekné metriky, ale zlé reálne výsledky.
8. Praktické použitie (čo to znamená pre teba)
- Prečo sa AI tvári sebavedomo: LLM majú bias na „plynulý text“. Aj keď si nie sú isté, znejú presvedčivo — preto treba overovať.
- Prečo prompt niekedy nestačí: prompt mení správanie, ale nie základný bias modelu. Ak je problém mimo jeho „zvykov“, lepšia formulácia nepomôže.
- Ako si vybrať nástroj: pri tabuľkách a číslach hľadaj modely s biasom na štruktúrované dáta; pri obraze na vizuálnu štruktúru.
Zhrnutie
- Inductive Bias je dôvod, prečo model vie ísť „za dáta“ a generalizovať, nie len memorovať.
- Bez biasu je generalizácia nemožná — to formálne potvrdzuje No Free Lunch Theorem.
- Najsilnejší bias je architektúra a tréningový režim, nie drobné nastavenia.
- Správny bias šetrí dáta a čas; zlý bias vytvára systematické chyby. Spoľahlivosť sleduj mimo tréningovej domény, nie len na benchmarku.