Škálovacie zákony v AI: Matematika rastu umelej inteligencie

Škálovacie zákony opisujú, ako výkon AI modelov rastie so zvyšujúcim sa výpočtovým výkonom, množstvom dát a počtom parametrov — a práve tieto empirické vzťahy dnes riadia miliardové rozhodnutia o trénovaní najväčších jazykových modelov na svete.

1. Čo sú škálovacie zákony

Škálovacie zákony (scaling laws) sú empiricky overené matematické vzťahy, ktoré tvrdia: ak zdvojnásobíte niektorú zo vstupných veličín trénovania, výkon modelu sa zlepší predvídateľným spôsobom. Nie lineárne, nie náhodne — ale podľa mocninovej funkcie (power law).

Formálne: ak L je tréningová strata (miera chyby modelu), potom platí:

L ∝ N^(-α)   // závislosť od počtu parametrov
L ∝ D^(-β)   // závislosť od množstva tréningových dát
L ∝ C^(-γ)   // závislosť od výpočtového rozpočtu

kde N = počet parametrov, D = počet tréningových tokenov a C = celkové FLOPs (operácie s pohyblivou desatinnou čiarkou).

Kľúčová vlastnosť: exponent je menší ako 1. Každé zdvojnásobenie prinesie zlepšenie, ale čoraz menšie — výnos klesá. Napriek tomu je zlepšenie spoľahlivé a predvídateľné, čo z týchto zákonov robí navigačný nástroj pre celé odvetvie. Laboratóriá ich používajú skôr, ako vôbec spustia drahý tréningový beh.

2. Historický vývoj: Od Kaplana po Chinchillu

Moderné chápanie škálovacích zákonov vzniklo v dvoch prelomových vlnách.

2020 — Kaplanove zákony (OpenAI)

Jared Kaplan a tím z OpenAI publikovali štúdiu, ktorá prekvapila celý obor: výkon jazykových modelov rastie predvídateľne so všetkými troma dimenziami, pričom parametre sa javili ako najdôležitejší faktor. Komunita vyvodila záver: väčší model = lepší model, dáta nie sú až tak kritické.

Tento záver viedol k tvorbe extrémne veľkých modelov trénovaných na relatívne malom množstve dát — napríklad GPT-3 s 175 miliardami parametrov tréningom na iba 300 miliardách tokenov.

2022 — Chinchilla (DeepMind)

Jordan Hoffmann a tím z DeepMind otočili predošlý záver. Ich model Chinchilla (70 miliárd parametrov, 1,4 bilióna tokenov) prekonával GPT-3 napriek štvrtine počtu parametrov — jednoducho preto, že bol trénovaný na oveľa viac dátach.

Pointa: Kaplanove modely boli podtréningové (undertrained). Optimum nie je maximalizovať parametre, ale škálovať parametre a dáta rovnomerne. Chinchilla pravidlo hovorí: na každý parameter treba zhruba 20 tréningových tokenov. Táto ekvivalencia zmenila stratégiu vývoja modelov v celom odvetví.

3. Tri dimenzie škálovania

Dimenzia	Notácia	Čo meria	Príklady hodnôt
Parametre	N	Počet váh modelu	7B, 70B, 405B
Tréningové dáta	D	Tokeny v datasete	1T, 15T, 100T tokenov
Výpočet	C	FLOPs ≈ 6 · N · D	10²³ – 10²⁵ FLOPs
Kontextové okno	L	Tokeny v kontexte	4K → 1M tokenov
Inferenčný compute	C_inf	FLOPs pri generovaní	rastie s dlhšími odpoveďami

Vzťah C ≈ 6 · N · D je hrubá aproximácia, kde faktor 6 pochádza z dopredného a spätného prechodu sieťou pri trénovaní. Laboratóriá tento vzťah využívajú pri plánovaní: ak viem, koľko GPU-hodín mám k dispozícii, viem vypočítať optimálny pomer N a D ešte pred spustením trénovania.

4. Praktické implikácie pre vývoj modelov

Škálovacie zákony nie sú akademická kuriozita — priamo ovplyvňujú rozhodnutia za miliardy dolárov.

Prieskumné tréningové behy

Pred spustením veľkého trénovania laboratóriá najprv trénujú sériu malých modelov na malých datasetoch. Zo získaných strát extrahujú exponent škálovacej krivky a predpovedajú výkon finálneho modelu. Toto "predtréningové prieskumníctvo" šetrí obrovské náklady — chyba v predpovedi môže znamenať premárnené stovky miliónov dolárov.

Compute-matched porovnávanie

Škálovacie zákony umožňujú férové porovnávanie modelov: namiesto "model A vs. model B" sa pýtame "model A vs. model B pri rovnakom výpočtovom rozpočte?" Rodiny modelov ako Llama 4 alebo Qwen3 takto prezentujú svoju efektivitu voči oveľa drahším proprietárnym alternatívam.

Dátové stratégie

Chinchilla ukázalo, že obor nevenoval dátam dostatočnú pozornosť. Výsledkom bol masívny záujem o syntetické dáta, rozsiahle web-crawl projekty a multimodálne datasety. Modely trénované na 30 biliónoch tokenov a viac sú dnes štandard, nie výnimka.

5. Limity, kritika a čo ďalej

Škálovacie zákony nie sú neobmedzene platné. Obor naráža na niekoľko zásadných výziev.

Datová stena

Kvalitatívny internetový text je konečný zdroj. Odhady naznačujú, že veľké laboratóriá sa blížia k vyčerpaniu väčšiny dostupného anglického textu. Riešeniami sú syntetické dáta generované samotnými modelmi, multijazyčné datasety a multimodálne vstupy — text, obrázky, kód, video.

Emergentné schopnosti narušujú hladké krivky

Niektoré schopnosti — napríklad reťazové uvažovanie (chain-of-thought) alebo viacstupňová aritmetika — sa objavujú zdanlivo náhle pri určitej veľkosti modelu. Táto emergencia sa nedá spoľahlivo predpovedať zo škálovacích kriviek, čo zostáva aktívnou výskumnou otázkou a spochybňuje prediktívnu silu zákonov v najzaujímavejších oblastiach.

Post-tréningové škálovanie

Rastúci dôraz na RLHF, syntetické dáta a test-time compute scaling (modely, ktoré pri odpovediach "premýšľajú dlhšie" namiesto toho, aby boli väčšie) ukazuje, že škálovanie parametrov nie je jediná cesta vpred. Moderné reasoning modely preukázali, že inferenčný compute môže v mnohých úlohách nahradiť predtréningový — za nižšie náklady.

Architektúrne zmeny

Výskum ako Mamba (state space modely) alebo Mixture of Experts mení základnú rovnicu: efektívny počet parametrov aktívnych pri inferencii je len zlomok celkových parametrov. Chinchilla pravidlá boli odvodené pre husté (dense) transformery — pre sparse architektúry platí odlišná matematika a výskum nových škálovacích zákonov pre tieto architektúry stále prebieha.

Zhrnutie: Škálovacie zákony odhalili, že rast AI nie je náhoda — riadi sa predvídateľnou matematikou mocninových funkcií. No čím viac obor posúva hranice, tým jasnejšie vidno, že samotné škálovanie parametrov nestačí: budúcnosť patrí kombináciám efektívnejších architektúr, syntetických dát a škálovania na úrovni inferencie.