Reasoning Models — Keď AI začne „premýšľať"

Bežné jazykové modely generujú odpoveď token po tokene, pričom každý ďalší token závisí od predchádzajúcich. Tento prístup funguje prekvapivo dobre na väčšinu úloh, no zlyháva pri problémoch vyžadujúcich viacstupňové logické uvažovanie — matematické dôkazy, programovanie s komplexnými závislosťami či analýzu argumentov. Práve tu vstupujú na scénu reasoning modely — nová generácia AI systémov, ktoré pred odpoveďou explicitne „premýšľajú".

Čo sú reasoning modely a prečo sú dôležité

Reasoning model je jazykový model špeciálne trénovaný alebo nakonfigurovaný tak, aby pred finálnou odpoveďou generoval medzikroky uvažovania. Namiesto okamžitej odpovede model najprv rozloží problém na časti, zvažuje rôzne prístupy, kontroluje si medzivýsledky a až potom sformuluje záver.

Prečo je to revolučné? Klasické LLM modely sú v podstate systémy rýchleho myslenia (System 1 v terminológii Daniela Kahnemana) — reagujú intuitívne na základe vzorcov videných počas tréningu. Reasoning modely pridávajú vrstvu pomalého, deliberatívneho myslenia (System 2), kde model alokuje viac výpočtového času na ťažšie problémy.

Praktický dopad je obrovský. Na matematických benchmarkoch ako AIME (American Invitational Mathematics Examination) dosiahli reasoning modely skok z ~30 % na viac ako 80 % úspešnosti oproti predchádzajúcej generácii. V programovaní, logických hádankách a vedeckom uvažovaní vidíme podobné zlepšenia.

Chain-of-Thought prompting a jeho evolúcia

Koreňom reasoning modelov je technika Chain-of-Thought (CoT) prompting, ktorú v roku 2022 popularizoval tím Google Brain (Wei et al.). Základná myšlienka je jednoduchá: ak modelu poviete „premýšľaj krok za krokom", kvalita odpovedí na reasoning úlohy dramaticky vzrastie.

Evolúcia CoT prístupov:

Manuálny CoT (2022) — výskumníci ručne pridávali do promptu príklady krokového uvažovania
Zero-shot CoT — stačilo pridať frázu „Let's think step by step" a model začal generovať medzikroky
Self-Consistency (2023) — model vygeneruje viacero reťazcov uvažovania a vyberie najčastejšiu odpoveď
Tree-of-Thought (2023) — model skúma viaceré vetvy uvažovania súčasne, podobne ako šachový engine
Natívny reasoning (2024+) — model je priamo trénovaný na generovanie reasoning krokov, nie len promptovaný

Kľúčový posun nastal, keď sa CoT prestal používať len ako prompting technika a stal sa súčasťou samotného tréningového procesu. Modely sa začali trénovať na dátach obsahujúcich explicitné uvažovanie, čím sa reasoning stal ich vnútornou schopnosťou.

Kľúčové reasoning modely

OpenAI o1 a o3

OpenAI v septembri 2024 predstavilo o1 — prvý komerčne dostupný reasoning model. Model pred odpoveďou generuje skrytý „chain of thought", ktorý používateľ nevidí (len súhrn). Nasledoval o3 (december 2024) a jeho mini varianta, ktoré posunuli výkon ešte vyššie.

Architektúra o-série využíva reinforcement learning na optimalizáciu reasoning procesu. Model sa učí, ktoré kroky uvažovania vedú k správnym výsledkom, a postupne sa zlepšuje v plánovaní a sebaoprave. O3 dosiahol na ARC-AGI benchmarku skóre, ktoré prekonalo predchádzajúce rekordy, čo vyvolalo intenzívnu diskusiu o blízkosti AGI.

DeepSeek-R1

Čínsky DeepSeek v januári 2025 vydal R1 — open-source reasoning model, ktorý otriasol celým odvetvím. R1 dosiahol výkon porovnateľný s o1 pri zlomku nákladov na tréning. Najzaujímavejšie je, že DeepSeek použil prístup pure RL — model sa naučil reasoning len cez reinforcement learning bez rozsiahleho supervised fine-tuningu na reasoning dátach.

DeepSeek-R1 ukázal, že reasoning schopnosti môžu emerge (vyplynúť) z RL tréningu, čo bolo prekvapivé zistenie. Model generuje viditeľný thinking process vrátane sebaopráv a alternatívnych prístupov. Open-source povaha R1 umožnila komunite študovať a replikovať reasoning tréning.

Claude s Extended Thinking

Anthropic zvolil odlišný prístup s funkciou Extended Thinking pre modely Claude. Namiesto samostatného reasoning modelu je extended thinking voliteľná schopnosť, ktorú možno aktivovať na požiadanie. Keď je zapnutá, Claude generuje rozsiahly interný thought process pred odpoveďou.

Výhodou tohto prístupu je flexibilita — rovnaký model funguje ako rýchly asistent aj ako hlboký analytik podľa potreby. Claude s extended thinking exceluje najmä v kódovaní, analýze dokumentov a komplexných inštrukciách, kde dlhšie premýšľanie prináša merateľne lepšie výsledky.

Test-time compute vs Training-time compute

Reasoning modely priniesli fundamentálny posun v tom, kde sa investuje výpočtový výkon:

Training-time compute (tradičný prístup):

Väčší model + viac tréningových dát = lepší výkon
Škálovacie zákony (scaling laws) Kaplan et al.
Fixný výkon pri inference — model „vie" alebo „nevie"

Test-time compute (reasoning prístup):

Model investuje viac výpočtu počas generovania odpovede
Ťažšie problémy = viac thinking tokenov = lepší výsledok
Škálovanie výkonu cez čas premýšľania, nie cez veľkosť modelu

Tento posun má hlboké praktické implikácie. Menší model s dostatočným test-time compute môže prekonať väčší model bez reasoning schopností. OpenAI o1-mini napríklad na mnohých úlohách prekonáva GPT-4, napriek tomu, že je výrazne menší.

Budúcnosť pravdepodobne leží v kombinácii oboch prístupov — veľké, dobre natrénované modely s dynamickým alokovaním test-time compute podľa náročnosti úlohy.

Limitácie reasoning modelov

Napriek pôsobivým výsledkom majú reasoning modely významné obmedzenia:

Halucinácie v reasoning: Model môže generovať presvedčivo vyzerajúce uvažovanie, ktoré je logicky chybné. Tzv. „faithfulness" problém — interné kroky nemusia zodpovedať skutočnému výpočtu modelu. Model môže „racionalizovať" nesprávnu odpoveď namiesto skutočného uvažovania.

Náklady a latencia: Reasoning tokeny sú „skryté" pre používateľa, ale nie pre účtovanie. Odpoveď na jednoduchú otázku môže spotrebovať 10× viac tokenov (a teda peňazí) ako bez reasoning. Latencia sa zvyšuje z sekúnd na desiatky sekúnd, čo je problematické pre real-time aplikácie.

Overthinking: Modely niekedy „premýšľajú" aj nad triviálnymi otázkami, zbytočne komplikujú jednoduché problémy a paradoxne dospejú k horšej odpovedi než bez reasoning módu.

Nedostatok transparentnosti: U modelov ako o1/o3 je reasoning proces skrytý. Používateľ vidí len súhrn, nie skutočné kroky uvažovania, čo sťažuje debugging a budovanie dôvery.

Budúcnosť: Reasoning + Tools a Reasoning Agents

Najvzrušujúcejší smer vývoja je kombinácia reasoning schopností s použitím nástrojov. Reasoning agent nie len premýšľa, ale aktívne interaguje s prostredím:

Reasoning + Code Execution: Model napíše kód, spustí ho, analyzuje výsledok a iteruje — kombinuje symbolické a neurálne uvažovanie
Reasoning + Web Search: Model identifikuje medzery vo svojich znalostiach a aktívne vyhľadáva informácie počas reasoning procesu
Multi-step Planning: Agent rozloží komplexnú úlohu na kroky, vykoná ich sekvenčne a adaptuje plán podľa výsledkov

Vidíme už prvé implementácie: Claude s MCP (Model Context Protocol) nástrojmi, OpenAI Codex agent s reasoning, či open-source framework ReAct (Reasoning + Acting).

Dlhodobejšia vízia zahŕňa hierarchické reasoning systémy, kde orchestrátorový model deleguje podúlohy na špecializované agenty, pričom každý používa reasoning primeraný svojej úlohe. Takéto systémy by mohli riešiť problémy, ktoré sú dnes pre AI nedosiahnuteľné — od vedeckého výskumu po komplexné inžinierske návrhy.

Záver

Reasoning modely predstavujú jednu z najvýznamnejších inovácií v AI za posledné roky. Posun od „rýchleho intuitívneho" k „pomalému deliberatívnemu" mysleniu otvára dvere k riešeniu problémov, ktoré boli pre predchádzajúce generácie modelov nedosiahnuteľné. Hoci limitácie zostávajú — od nákladov cez halucinácie po transparentnosť — smer je jasný: budúce AI systémy budú kombinovať reasoning s nástrojmi, pamäťou a schopnosťou plánovať, čím sa priblížia k skutočne autonómnym kognitívnym agentom.