Svetové modely: Ako AI buduje vnútorný obraz reality
Svetový model je schopnosť AI systému vytvoriť vnútornú reprezentáciu toho, ako svet funguje — a pomocou nej predvídať budúcnosť, plánovať akcie a rozumieť príčinám a následkom. V roku 2026 sa stali kľúčovým pilierom fyzickej AI a robotiky.
1. Čo je svetový model
Ľudský mozog nepracuje len s tým, čo vidí v danej chvíli. Máme vnútorný „simulátor" — predstavu o tom, čo sa stane, keď otvoríme dvere, hodíme loptu alebo zatlačíme pohár na okraj stola. Táto schopnosť sa v AI nazýva svetový model (world model).
Svetový model je neurónová sieť — alebo kombinácia sietí — schopná:
- predpovedať stav prostredia po aplikácii akcie,
- simulovať scenáre bez priameho kontaktu so skutočným svetom,
- plánovať postupnosť krokov na dosiahnutie cieľa.
Bez svetového modelu sa AI učí metódou pokus-omyl priamo v prostredí. So svetovým modelom môže „myslieť dopredu" — skúšať akcie v hlave, nie v realite. Je to rozdiel medzi šachistom, ktorý ťah fyzicky zahrá, a šachistom, ktorý ho najprv premyslí.
2. Ako svetový model funguje
Jadrom svetového modelu je predikcia v latentnom priestore. Namiesto toho, aby model predpovedal každý pixel budúceho snímku — čo je výpočtovo mimoriadne drahé — naučí sa kompaktnú reprezentáciu stavu sveta a predpovedá, ako sa táto reprezentácia zmení.
Typický postup:
- Encoder — vstup (snímok kamery, senzorové dáta) zakóduje do nízkorozmerného latentného vektora.
- Transition model — predikuje budúci latentný stav po vykonaní akcie agenta.
- Decoder — voliteľne dekóduje latentný stav späť do pozorovateľnej formy (obraz, jazyk).
- Reward model — odhaduje odmenu v predikovanom budúcom stave.
Tréning prebieha na veľkých dátach z videí, hier alebo robotických interakcií. Model sa učí tak, aby jeho predikcie čo najvernejšie zodpovedali skutočnému vývoju sveta.
Dôležitý princíp: moderné svetové modely sa čím ďalej tým viac trénujú bez explicitnej odmeny (self-supervised) — učia sa iba z predikcie, nie zo signálu správny/nesprávny. To im umožňuje škálovať na obrovské množstvá neotagovaných videí z internetu.
3. Hlavné prístupy a modely
| Model / Framework | Organizácia | Kľúčový princíp | Primárna doména |
|---|---|---|---|
| DreamerV3 | Google DeepMind | Latentná dynamika + rollout v imaginácii | Hry, robotika |
| I-JEPA / V-JEPA | Meta AI | Predikcia v abstraktnom priestore bez dekódovania | Video, robotika |
| Genie 2 | Google DeepMind | Generatívny svetový model z jediného obrázka | Hry, interaktívna simulácia |
| UniSim | Stanford / Google | Realistická fyzická simulácia pre robotov | Robotika, manipulácia |
| NVIDIA Cosmos | NVIDIA | Fyzická AI — svetový model pre priemyselných robotov | Fyzická AI, autonómne systémy |
| Sora / Veo | OpenAI / Google | Video generácia ako implicitný svetový model | Médiá, kreatívna simulácia |
DreamerV3 bol prelomový tým, že sa jedinou architektúrou — bez zmeny hyperparametrov — naučil hrať desiatky hier, od Atari po Minecraft. Kľúčový prínos: agent sa učí väčšinu v „imaginácii" (rollout v latentnom priestore), nie priamou interakciou s prostredím.
JEPA (Joint Embedding Predictive Architecture) od Yanna LeCuna prináša odlišnú filozofiu: predpovedaj v abstraktnom latentnom priestore, nie na úrovni pixelov. Cieľom je efektívnejšie učenie bez potreby generovať realistický obraz sveta — čo znižuje výpočtové nároky aj tendenciu k halucinácii detailov.
4. Praktické aplikácie
Svetové modely dnes pohánajú niektoré z najambicióznejších projektov v AI:
Robotika a fyzická AI: Roboty sa nemôžu naučiť každú manipuláciu v reálnom svete — je to pomalé, drahé a nebezpečné. Svetový model umožňuje trénovať v simulácii milióny hodín skúseností a výsledné schopnosti preniesť do fyzického robota. NVIDIA Cosmos (2025–2026) je priamo navrhnutý ako svetový model pre fyzickú AI — generuje fotorealistické simulácie pre tréning robotov v priemyselných halách aj domácnostiach.
Autonómne vozidlá: Tesla, Waymo a ďalší používajú varianty svetových modelov na predikciu správania ostatných účastníkov premávky. Model „vidí" desiatky tisíc hodín jazdy a naučí sa, ako sa chodci, cyklisti a autá správajú v rôznych situáciách — vrátane tých zriedkavých a nebezpečných.
Herná AI a interaktívna simulácia: Genie 2 (DeepMind, 2024) dokáže vygenerovať interaktívne herné prostredie z jediného statického obrázka. Hráč pohybuje avatárom a model v reálnom čase generuje konzistentný, fyzikálne uveriteľný svet — bez toho, aby bolo prostredie vopred naprogramované.
Vedecké simulácie: Predikcia počasia, dynamika molekúl, materiálové vlastnosti — svetové modely nahradzujú drahé numerické simulátory pri explorácii veľkého priestoru parametrov. GraphCast od DeepMindu je príkladom svetového modelu pre atmosferické systémy.
5. Limity a otvorené otázky
Svetové modely sú sľubné, ale ďaleko od vyriešenia:
- Distribučný posun: model funguje dobre v prostredí podobnom tréningovým dátam. Nová, nepozorovaná situácia — nové problémy. Robot natrénovaný v simulácii môže zlyhať pri skutočnom osvetlení alebo nerovnom povrchu.
- Kauzalita vs. korelácia: väčšina modelov sa naučí štatistické vzory, nie skutočné fyzikálne príčiny. Predikcia môže byť presná za bežných podmienok a úplne chybná pri miernej odchýlke.
- Dlhé horizonty: predikcia na 1–2 kroky dopredu funguje dobre. Na 10–100 krokov sa chyby akumulujú a model sa od reality vzďaľuje.
- Definovanie cieľa: ľudský svet je príliš komplexný na to, aby sa dal popísať jednoduchou skalárnou odmenou. Ako definovať, čo „dobrý stav sveta" znamená, ostáva otvorenou otázkou.
- Interpretabilita: čo presne model reprezentuje vo svojom latentnom priestore? Táto otázka sa priamo prelína s oblasťou mechanistickej interpretability — a zatiaľ nemá uspokojivú odpoveď.
Yann LeCun dlhodobo argumentuje, že práve svetové modely — nie jazykové modely — sú správnou cestou k umelej všeobecnej inteligencii. Debata medzi LLM-centrickou a svetový-model-centrickou paradigmou je jednou z kľúčových v AI komunite roku 2026. Pravda pravdepodobne leží niekde uprostred: budúce systémy AGI budú kombinovať jazykové schopnosti LLM s vnútornou simuláciou svetových modelov.
Zhrnutie: Svetové modely dávajú AI schopnosť simulovať realitu, predvídať dôsledky a plánovať — čo sú základné stavebné kamene fyzickej AI a robotiky. V roku 2026 ide o jednu z najrýchlejšie rastúcich oblastí výskumu, s priamym dopadom na autonómne systémy, robotiku aj vedeckú simuláciu.