Test-Time Compute Scaling: Keď AI myslí namiesto pamätá

Test-time compute scaling je paradigma, pri ktorej model počas generovania odpovede investuje viac výpočtového výkonu do hľadania riešenia — namiesto toho, aby sa spoliehal výhradne na znalosti naučené počas tréningu. Je to jeden z najzásadnejších posunov v AI výskume za posledné dva roky.

1. Čo je test-time compute scaling

Tradičný pohľad na škálovanie AI bol priamočiary: väčší model = lepšie výsledky. Vedci a firmy investovali miliardy do predtrénovania čoraz väčších modelov na čoraz väčších dátových sadách. Tento prístup — dnes nazývaný training-time scaling — fungoval spoľahlivo, kým nenarazil na praktické limity: množstvo kvalitných textových dát je konečné a náklady na tréning rastú exponenciálne.

Test-time compute scaling ponúka alternatívu: nechaj model „myslieť" dlhšie, kým vydá odpoveď. Namiesto jedného rýchleho prechodu cez sieť model generuje medzikroky, overuje ich, opravuje chyby a iteratívne zlepšuje riešenie. Výsledok je presnejší — ale za cenu vyššieho výpočtového výkonu pri každej jednotlivej odpovedi.

Kľúčový insight, ktorý prišiel z výskumu OpenAI a DeepMind: pre mnohé dobre definované úlohy (matematika, kódovanie, logické odvodzovanie) je oveľa efektívnejšie dať menšiemu modelu viac „premýšľacieho" času, ako trénovať ďalší model, ktorý je 10× väčší.

2. Ako to technicky funguje

Existuje niekoľko konkrétnych techník, ktoré test-time compute scaling umožňujú:

Chain-of-Thought (CoT) reasoning Model explicitne generuje medzikroky pred finálnou odpoveďou. Namiesto okamžitého „42" model vypíše celý postup riešenia. Tento prístup výrazne zlepšuje výsledky na matematických a logických úlohách — a samotné generovanie krokov núti model štruktúrovať uvažovanie.

Beam Search a Best-of-N sampling Model vygeneruje viacero rôznych riešení — paralelne alebo sekvenčne — a následne vyberie to najlepšie. Výber zabezpečuje buď externý verifikátor (samostatný model hodnotí správnosť), alebo jednoduché hlasovanie väčšiny.

Process Reward Models (PRM) Špeciálne trénované modely nehodnotia len finálnu odpoveď, ale každý medzikrok v uvažovaní. To umožňuje odhaliť chybu v procese skôr, ako model dokončí celú odpoveď — a navigovať ho správnym smerom.

Monte Carlo Tree Search (MCTS) Prístup inšpirovaný hrami (pôvodne použitý v AlphaGo): model systematicky prehľadáva strom možných uvažovacích krokov a uprednostňuje perspektívne vetvy. Výpočtovo nákladné, ale dosahuje výnimočné výsledky na zložitých kombinatorických problémoch.

Self-Refinement / Self-Critique Model sám sebe kladie kritické otázky: „Je moje riešenie správne? Čo som mohol prehliadnuť?" — a iteratívne reviduje odpoveď. Jednoduchá technika s prekvapivo dobrými výsledkami na kódovacích úlohách.

3. Porovnanie: Training-time vs. Test-time scaling

Vlastnosť	Training-time scaling	Test-time scaling
Kedy prebieha investícia	Pred nasadením modelu	Pri každom dotaze
Hlavný náklad	Elektrina + hardware pre tréning	Latencia + token náklady
Vplyv na veľkosť modelu	Väčší model = vyššia kvalita	Menší model môže dosiahnuť výsledky väčšieho
Najvhodnejšie úlohy	Všeobecné znalosti, plynulý text	Matematika, kódovanie, logika
Predvídateľnosť odozvy	Stabilná latencia	Variabilná (závisí od zložitosti)
Typické príklady	GPT-4, Llama 4, Gemma 4	o3, DeepSeek R1, Claude Thinking

4. Modely, ktoré túto paradigmu využívajú

Test-time compute scaling prešiel od výskumných laboratórií k produkčným systémom v priebehu menej ako dvoch rokov:

OpenAI o1 → o3 OpenAI v septembri 2024 predstavila sériu o1, ktorá explicitne generuje dlhý chain-of-thought pred odpoveďou. Model o3 dosiahol rekordné výsledky na benchmarkoch ako ARC-AGI a AIME — pri maximálnej konfigurácii spotrebúva tisíce tokenov na interný myšlienkový proces pred jedinou odpoveďou.

DeepSeek R1 Čínsky open-source model z januára 2025 prekvapil celý priemysel. Dosahoval porovnateľné výsledky s o1 za zlomok nákladov, pričom bol trénovaný s masívnym reinforcement learningom, ktorý model naučil generovať dlhé a správne uvažovacie reťazce.

Google Gemini Thinking Verzie modelov Gemini s aktivovaným „thinking mode" generujú viditeľné medzikroky. Gemini 2.0 Flash Thinking preukázal, že aj kompaktnejší model môže pomocou dlhšieho uvažovania prekonať väčšie základné modely na matematických úlohách.

Anthropic Claude — rozšírené myslenie Claude modely podporujú „extended thinking" — vývojári môžu konfigurovateľne nastaviť limit tokenov pre interné uvažovanie. Ak sa problém nevyžaduje hlboké premýšľanie, limit sa nastaví nízko; pre zložité analýzy sa otvorí plná kapacita.

5. Limity, riziká a otvorené otázky

Napriek výraznému pokroku má test-time compute scaling reálne obmedzenia, o ktorých je dôležité vedieť:

Latencia Dlhšie uvažovanie = dlhší čas čakania. Pre chatové aplikácie s požiadavkou na okamžitú odpoveď sú reasoning modely pri maximálnych nastaveniach jednoducho príliš pomalé.

Náklady na token Každý „myšlienkový" token stojí peniaze. Pre aplikácie s vysokým objemom dotazov môže byť použitie plnohodnotných reasoning modelov ekonomicky neudržateľné — preto väčšina poskytovateľov ponúka hybridné režimy.

Nie všetky úlohy profitujú rovnako Test-time scaling vyniká v úlohách s overiteľnou správnou odpoveďou. Pre kreatívne písanie, sumarizáciu alebo faktické otázky prináša len marginálne zlepšenie pri výrazne vyšších nákladoch.

Spurious reasoning — klamlivé uvažovanie Dlhší chain-of-thought nezaručuje správnosť. Modely môžu generovať presvedčivo vyzerajúce, ale chybné medzikroky — a dospieť k správnej odpovedi nesprávnou cestou alebo naopak. Tento jav komplikuje dôveru v výstup.

Bezpečnosť a auditovateľnosť Skryté interné uvažovanie (modely, ktoré myslenia „pred" odpoveďou) komplikuje alignment a bezpečnostný audit. Výskumníci z Anthropic a OpenAI aktívne skúmajú, či viditeľný chain-of-thought skutočne odráža interné procesy modelu — alebo je len post-hoc rationalizáciou.

6. Best-of-N v kóde (najjednoduchší variant)

Najlacnejšia forma test-time scalingu je vygenerovať viac riešení a vybrať najlepšie:

# vygeneruj N kandidátov a nechaj verifikátor/hlasovanie vybrať
candidates = [model(prompt, temperature=0.8) for _ in range(N)]
best = max(candidates, key=verifier_score)   # alebo majority vote

Viac „premýšľania" (vyššie N alebo dlhší chain-of-thought) = vyššia presnosť, ale aj vyššia latencia a cena.

7. Súvislosti

Inferencia: test-time scaling je rozhodnutie investovať viac compute práve pri inferencii.
RLHF: reasoning modely sa učia generovať dobré uvažovacie reťazce cez reinforcement learning.
Answer Thrashing: príliš veľa „premýšľania" bez commitu vedie k nestabilite — treba ohraničiť.
AI Alignment: skryté uvažovanie komplikuje bezpečnostný audit (odráža CoT realitu?).

Zhrnutie: Test-time compute scaling zmenil základné pravidlo AI vývoja — namiesto nekonečného rastu veľkosti modelov sa vyplatí investovať výpočtový výkon do hlbšieho uvažovania v momente potreby. Táto paradigma tvorí základ dnešných najvýkonnejších reasoning modelov a pravdepodobne zostane jednou z hnacích síl ďalšej generácie AI systémov.