Inductive Bias

Inductive Bias je sada „predpokladov“, ktoré má učiaci sa algoritmus zabudované, aby vedel z obmedzených dát odhadnúť niečo aj o prípadoch, ktoré ešte nevidel. Bez tohto biasu by sa model správal ako študent, ktorý sa naučí odpovede naspamäť, ale pri mierne inej otázke sa rozsype. Inductive bias je jedným z najdôležitejších — a najprehliadanejších — pojmov v strojovom učení.

1. Čo to je (definícia + analógia)

Predpoklad navyše: model má vždy viac možných vysvetlení dát — inductive bias ho tlačí k niektorým riešeniam a od iných odrádza.
Analógia – skladanie puzzle: keď skladáš puzzle a chýba polovica dielikov, aj tak „uhádneš“ oblohu vs. trávu podľa farby a vzoru. To je bias: preferuješ hladké plochy a známe štruktúry.
Generalizácia: bias je dôvod, prečo model nefunguje len na tréningových príkladoch, ale aj na nových.

Formálne: dáta samy o sebe nikdy jednoznačne neurčia funkciu (vždy existuje nekonečne veľa kriviek cez tie isté body). Bias je to, čo z nich vyberie jednu.

2. Prečo bez biasu generalizácia nie je možná

Predstav si, že chceš predpovedať ďalšie číslo postupnosti 2, 4, 6, ?. „Zrejmá“ odpoveď je 8 — ale len preto, že predpokladáš jednoduchosť (lineárny vzor). Bez tohto predpokladu je 8 rovnako oprávnená ako 42. Tento princíp formálne zhŕňa No Free Lunch Theorem: bez predpokladov o probléme neexistuje univerzálne najlepší algoritmus.

3. Ako sa bias dostáva do modelu

Výber priestoru riešení: algoritmus implicitne hovorí „hľadám riešenia tohto typu“ (hladké funkcie, jednoduchšie vysvetlenia, riedke váhy).
Architektúra ako bias: to, či použiješ CNN, transformer alebo lineárny model, je obrovský bias — každý „verí“ inému typu štruktúry.
Regularizácia: L2, dropout, early stopping, data augmentation tlačia model k stabilnejším, menej preučeným riešeniam.
Predtrénovanie: model, ktorý videl veľa dát, si nesie bias z toho, čo považuje za „pravdepodobné“ v jazyku či obrazoch.

4. Architektúra = najsilnejší bias

CNN          → „blízke pixely spolu súvisia“        (translačná invariancia)
RNN/LSTM     → „záleží na poradí, blízke kroky viac“ (rekurencia)
Transformer  → „ľubovoľné tokeny môžu súvisieť“      (attention, slabý bias)
GNN          → „dôležitá je štruktúra grafu“         (permutačná invariancia)

Zaujímavosť: transformer má zámerne slabší inductive bias než CNN. Preto potrebuje viac dát — ale keď ich má, nie je obmedzený silnými predpokladmi a dosahuje špičkové výsledky. To je jeden z dôvodov, prečo veľké jazykové modely fungujú tak dobre pri obrovských dátach.

5. Orientačná mapa biasov

Typ biasu	Čo preferuje	Kde to cítiš
Jednoduchosť	kratšie / hladšie vysvetlenia	menej overfitu, lepší „common sense“
Lokalita (CNN)	blízke pixely spolu súvisia	detekcia hrán, textúr, objektov
Sekvencia/attention	závislosti medzi tokenmi	jazyk, kód, dlhé kontexty
Riedkosť	„použi málo parametrov“	selekcia príznakov, stabilita
Invariancia	nezáleží na posune/rotácii	robustnosť voči transformáciám

6. Príklad: bias cez regularizáciu

Aj pri rovnakej architektúre vieš bias meniť tréningom:

# weight decay = bias smerom k menším váham = jednoduchšie funkcie
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-3, weight_decay=1e-2)

# dropout = bias smerom k redundantným, robustným reprezentáciám
model = nn.Sequential(nn.Linear(256, 256), nn.ReLU(), nn.Dropout(0.3))

Tieto „drobné“ nastavenia rozhodujú, či model chytí štruktúru alebo šum — a úzko súvisia s fenoménom grokking, kde weight decay rozhoduje, či vôbec príde generalizácia.

7. Výhody a obmedzenia

Výhody:
- Rýchlejšie učenie: so správnym biasom potrebuješ menej dát.
- Lepšia generalizácia: model sa menej lepí na šum.
- Predvídateľnejšie správanie: vieš lepšie odhadnúť, kedy zlyhá (mimo domény).
Obmedzenia:
- Slepé miesta: zlý bias vedie k systematickým chybám.
- „Správny“ len pre niektoré úlohy: bias, ktorý pomáha na jednom type dát, môže škodiť inde.
- Závislosť od domény: bez doménovej znalosti vyberieš architektúru, ktorá dáva pekné metriky, ale zlé reálne výsledky.

8. Praktické použitie (čo to znamená pre teba)

Prečo sa AI tvári sebavedomo: LLM majú bias na „plynulý text“. Aj keď si nie sú isté, znejú presvedčivo — preto treba overovať.
Prečo prompt niekedy nestačí: prompt mení správanie, ale nie základný bias modelu. Ak je problém mimo jeho „zvykov“, lepšia formulácia nepomôže.
Ako si vybrať nástroj: pri tabuľkách a číslach hľadaj modely s biasom na štruktúrované dáta; pri obraze na vizuálnu štruktúru.

Zhrnutie

Inductive Bias je dôvod, prečo model vie ísť „za dáta“ a generalizovať, nie len memorovať.
Bez biasu je generalizácia nemožná — to formálne potvrdzuje No Free Lunch Theorem.
Najsilnejší bias je architektúra a tréningový režim, nie drobné nastavenia.
Správny bias šetrí dáta a čas; zlý bias vytvára systematické chyby. Spoľahlivosť sleduj mimo tréningovej domény, nie len na benchmarku.