Inductive Bias

Inductive Bias je sada „predpokladov“, ktoré má učiaci sa algoritmus zabudované, aby vedel z obmedzených dát odhadnúť niečo aj o prípadoch, ktoré ešte nevidel. Bez tohto biasu by sa model správal ako študent, ktorý sa naučí odpovede naspamäť, ale pri mierne inej otázke sa rozsype. Inductive bias je jedným z najdôležitejších — a najprehliadanejších — pojmov v strojovom učení.


1. Čo to je (definícia + analógia)

  • Predpoklad navyše: model má vždy viac možných vysvetlení dát — inductive bias ho tlačí k niektorým riešeniam a od iných odrádza.
  • Analógia – skladanie puzzle: keď skladáš puzzle a chýba polovica dielikov, aj tak „uhádneš“ oblohu vs. trávu podľa farby a vzoru. To je bias: preferuješ hladké plochy a známe štruktúry.
  • Generalizácia: bias je dôvod, prečo model nefunguje len na tréningových príkladoch, ale aj na nových.

Formálne: dáta samy o sebe nikdy jednoznačne neurčia funkciu (vždy existuje nekonečne veľa kriviek cez tie isté body). Bias je to, čo z nich vyberie jednu.


2. Prečo bez biasu generalizácia nie je možná

Predstav si, že chceš predpovedať ďalšie číslo postupnosti 2, 4, 6, ?. „Zrejmá“ odpoveď je 8 — ale len preto, že predpokladáš jednoduchosť (lineárny vzor). Bez tohto predpokladu je 8 rovnako oprávnená ako 42. Tento princíp formálne zhŕňa No Free Lunch Theorem: bez predpokladov o probléme neexistuje univerzálne najlepší algoritmus.


3. Ako sa bias dostáva do modelu

  • Výber priestoru riešení: algoritmus implicitne hovorí „hľadám riešenia tohto typu“ (hladké funkcie, jednoduchšie vysvetlenia, riedke váhy).
  • Architektúra ako bias: to, či použiješ CNN, transformer alebo lineárny model, je obrovský bias — každý „verí“ inému typu štruktúry.
  • Regularizácia: L2, dropout, early stopping, data augmentation tlačia model k stabilnejším, menej preučeným riešeniam.
  • Predtrénovanie: model, ktorý videl veľa dát, si nesie bias z toho, čo považuje za „pravdepodobné“ v jazyku či obrazoch.

4. Architektúra = najsilnejší bias

CNN          → „blízke pixely spolu súvisia“        (translačná invariancia)
RNN/LSTM     → „záleží na poradí, blízke kroky viac“ (rekurencia)
Transformer  → „ľubovoľné tokeny môžu súvisieť“      (attention, slabý bias)
GNN          → „dôležitá je štruktúra grafu“         (permutačná invariancia)

Zaujímavosť: transformer má zámerne slabší inductive bias než CNN. Preto potrebuje viac dát — ale keď ich má, nie je obmedzený silnými predpokladmi a dosahuje špičkové výsledky. To je jeden z dôvodov, prečo veľké jazykové modely fungujú tak dobre pri obrovských dátach.


5. Orientačná mapa biasov

Typ biasu Čo preferuje Kde to cítiš
Jednoduchosť kratšie / hladšie vysvetlenia menej overfitu, lepší „common sense“
Lokalita (CNN) blízke pixely spolu súvisia detekcia hrán, textúr, objektov
Sekvencia/attention závislosti medzi tokenmi jazyk, kód, dlhé kontexty
Riedkosť „použi málo parametrov“ selekcia príznakov, stabilita
Invariancia nezáleží na posune/rotácii robustnosť voči transformáciám

6. Príklad: bias cez regularizáciu

Aj pri rovnakej architektúre vieš bias meniť tréningom:

# weight decay = bias smerom k menším váham = jednoduchšie funkcie
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-3, weight_decay=1e-2)

# dropout = bias smerom k redundantným, robustným reprezentáciám
model = nn.Sequential(nn.Linear(256, 256), nn.ReLU(), nn.Dropout(0.3))

Tieto „drobné“ nastavenia rozhodujú, či model chytí štruktúru alebo šum — a úzko súvisia s fenoménom grokking, kde weight decay rozhoduje, či vôbec príde generalizácia.


7. Výhody a obmedzenia

  • Výhody:
    • Rýchlejšie učenie: so správnym biasom potrebuješ menej dát.
    • Lepšia generalizácia: model sa menej lepí na šum.
    • Predvídateľnejšie správanie: vieš lepšie odhadnúť, kedy zlyhá (mimo domény).
  • Obmedzenia:
    • Slepé miesta: zlý bias vedie k systematickým chybám.
    • „Správny“ len pre niektoré úlohy: bias, ktorý pomáha na jednom type dát, môže škodiť inde.
    • Závislosť od domény: bez doménovej znalosti vyberieš architektúru, ktorá dáva pekné metriky, ale zlé reálne výsledky.

8. Praktické použitie (čo to znamená pre teba)

  • Prečo sa AI tvári sebavedomo: LLM majú bias na „plynulý text“. Aj keď si nie sú isté, znejú presvedčivo — preto treba overovať.
  • Prečo prompt niekedy nestačí: prompt mení správanie, ale nie základný bias modelu. Ak je problém mimo jeho „zvykov“, lepšia formulácia nepomôže.
  • Ako si vybrať nástroj: pri tabuľkách a číslach hľadaj modely s biasom na štruktúrované dáta; pri obraze na vizuálnu štruktúru.

Zhrnutie

  • Inductive Bias je dôvod, prečo model vie ísť „za dáta“ a generalizovať, nie len memorovať.
  • Bez biasu je generalizácia nemožná — to formálne potvrdzuje No Free Lunch Theorem.
  • Najsilnejší bias je architektúra a tréningový režim, nie drobné nastavenia.
  • Správny bias šetrí dáta a čas; zlý bias vytvára systematické chyby. Spoľahlivosť sleduj mimo tréningovej domény, nie len na benchmarku.