Svetové modely: Ako AI buduje vnútorný obraz reality

Svetový model je schopnosť AI systému vytvoriť vnútornú reprezentáciu toho, ako svet funguje — a pomocou nej predvídať budúcnosť, plánovať akcie a rozumieť príčinám a následkom. V roku 2026 sa stali kľúčovým pilierom fyzickej AI a robotiky.


1. Čo je svetový model

Ľudský mozog nepracuje len s tým, čo vidí v danej chvíli. Máme vnútorný „simulátor" — predstavu o tom, čo sa stane, keď otvoríme dvere, hodíme loptu alebo zatlačíme pohár na okraj stola. Táto schopnosť sa v AI nazýva svetový model (world model).

Svetový model je neurónová sieť — alebo kombinácia sietí — schopná:

  • predpovedať stav prostredia po aplikácii akcie,
  • simulovať scenáre bez priameho kontaktu so skutočným svetom,
  • plánovať postupnosť krokov na dosiahnutie cieľa.

Bez svetového modelu sa AI učí metódou pokus-omyl priamo v prostredí. So svetovým modelom môže „myslieť dopredu" — skúšať akcie v hlave, nie v realite. Je to rozdiel medzi šachistom, ktorý ťah fyzicky zahrá, a šachistom, ktorý ho najprv premyslí.


2. Ako svetový model funguje

Jadrom svetového modelu je predikcia v latentnom priestore. Namiesto toho, aby model predpovedal každý pixel budúceho snímku — čo je výpočtovo mimoriadne drahé — naučí sa kompaktnú reprezentáciu stavu sveta a predpovedá, ako sa táto reprezentácia zmení.

Typický postup:

  1. Encoder — vstup (snímok kamery, senzorové dáta) zakóduje do nízkorozmerného latentného vektora.
  2. Transition model — predikuje budúci latentný stav po vykonaní akcie agenta.
  3. Decoder — voliteľne dekóduje latentný stav späť do pozorovateľnej formy (obraz, jazyk).
  4. Reward model — odhaduje odmenu v predikovanom budúcom stave.

Tréning prebieha na veľkých dátach z videí, hier alebo robotických interakcií. Model sa učí tak, aby jeho predikcie čo najvernejšie zodpovedali skutočnému vývoju sveta.

Dôležitý princíp: moderné svetové modely sa čím ďalej tým viac trénujú bez explicitnej odmeny (self-supervised) — učia sa iba z predikcie, nie zo signálu správny/nesprávny. To im umožňuje škálovať na obrovské množstvá neotagovaných videí z internetu.


3. Hlavné prístupy a modely

Model / Framework Organizácia Kľúčový princíp Primárna doména
DreamerV3 Google DeepMind Latentná dynamika + rollout v imaginácii Hry, robotika
I-JEPA / V-JEPA Meta AI Predikcia v abstraktnom priestore bez dekódovania Video, robotika
Genie 2 Google DeepMind Generatívny svetový model z jediného obrázka Hry, interaktívna simulácia
UniSim Stanford / Google Realistická fyzická simulácia pre robotov Robotika, manipulácia
NVIDIA Cosmos NVIDIA Fyzická AI — svetový model pre priemyselných robotov Fyzická AI, autonómne systémy
Sora / Veo OpenAI / Google Video generácia ako implicitný svetový model Médiá, kreatívna simulácia

DreamerV3 bol prelomový tým, že sa jedinou architektúrou — bez zmeny hyperparametrov — naučil hrať desiatky hier, od Atari po Minecraft. Kľúčový prínos: agent sa učí väčšinu v „imaginácii" (rollout v latentnom priestore), nie priamou interakciou s prostredím.

JEPA (Joint Embedding Predictive Architecture) od Yanna LeCuna prináša odlišnú filozofiu: predpovedaj v abstraktnom latentnom priestore, nie na úrovni pixelov. Cieľom je efektívnejšie učenie bez potreby generovať realistický obraz sveta — čo znižuje výpočtové nároky aj tendenciu k halucinácii detailov.


4. Praktické aplikácie

Svetové modely dnes pohánajú niektoré z najambicióznejších projektov v AI:

Robotika a fyzická AI: Roboty sa nemôžu naučiť každú manipuláciu v reálnom svete — je to pomalé, drahé a nebezpečné. Svetový model umožňuje trénovať v simulácii milióny hodín skúseností a výsledné schopnosti preniesť do fyzického robota. NVIDIA Cosmos (2025–2026) je priamo navrhnutý ako svetový model pre fyzickú AI — generuje fotorealistické simulácie pre tréning robotov v priemyselných halách aj domácnostiach.

Autonómne vozidlá: Tesla, Waymo a ďalší používajú varianty svetových modelov na predikciu správania ostatných účastníkov premávky. Model „vidí" desiatky tisíc hodín jazdy a naučí sa, ako sa chodci, cyklisti a autá správajú v rôznych situáciách — vrátane tých zriedkavých a nebezpečných.

Herná AI a interaktívna simulácia: Genie 2 (DeepMind, 2024) dokáže vygenerovať interaktívne herné prostredie z jediného statického obrázka. Hráč pohybuje avatárom a model v reálnom čase generuje konzistentný, fyzikálne uveriteľný svet — bez toho, aby bolo prostredie vopred naprogramované.

Vedecké simulácie: Predikcia počasia, dynamika molekúl, materiálové vlastnosti — svetové modely nahradzujú drahé numerické simulátory pri explorácii veľkého priestoru parametrov. GraphCast od DeepMindu je príkladom svetového modelu pre atmosferické systémy.


5. Limity a otvorené otázky

Svetové modely sú sľubné, ale ďaleko od vyriešenia:

  • Distribučný posun: model funguje dobre v prostredí podobnom tréningovým dátam. Nová, nepozorovaná situácia — nové problémy. Robot natrénovaný v simulácii môže zlyhať pri skutočnom osvetlení alebo nerovnom povrchu.
  • Kauzalita vs. korelácia: väčšina modelov sa naučí štatistické vzory, nie skutočné fyzikálne príčiny. Predikcia môže byť presná za bežných podmienok a úplne chybná pri miernej odchýlke.
  • Dlhé horizonty: predikcia na 1–2 kroky dopredu funguje dobre. Na 10–100 krokov sa chyby akumulujú a model sa od reality vzďaľuje.
  • Definovanie cieľa: ľudský svet je príliš komplexný na to, aby sa dal popísať jednoduchou skalárnou odmenou. Ako definovať, čo „dobrý stav sveta" znamená, ostáva otvorenou otázkou.
  • Interpretabilita: čo presne model reprezentuje vo svojom latentnom priestore? Táto otázka sa priamo prelína s oblasťou mechanistickej interpretability — a zatiaľ nemá uspokojivú odpoveď.

Yann LeCun dlhodobo argumentuje, že práve svetové modely — nie jazykové modely — sú správnou cestou k umelej všeobecnej inteligencii. Debata medzi LLM-centrickou a svetový-model-centrickou paradigmou je jednou z kľúčových v AI komunite roku 2026. Pravda pravdepodobne leží niekde uprostred: budúce systémy AGI budú kombinovať jazykové schopnosti LLM s vnútornou simuláciou svetových modelov.


Zhrnutie: Svetové modely dávajú AI schopnosť simulovať realitu, predvídať dôsledky a plánovať — čo sú základné stavebné kamene fyzickej AI a robotiky. V roku 2026 ide o jednu z najrýchlejšie rastúcich oblastí výskumu, s priamym dopadom na autonómne systémy, robotiku aj vedeckú simuláciu.