NVIDIA Isaac GR00T a Cosmos — fyzická AI v 2026

Apríl 2026 priniesol zo strany NVIDIA niekoľko významných oznámení v oblasti fyzickej AI (physical AI / embodied AI) — modelovej rodiny zameranej na to, aby roboti porozumeli prirodzenej reči a vykonali komplexné multistep úlohy v reálnom svete. Hlavné nové mená: Isaac GR00T (open foundation models pre humanoidné roboty), Cosmos (world models pre synthetic data), a Newton 1.0 (open-source physics engine pre simuláciu).

Tieto tri komponenty spolu tvoria NVIDIA's full-stack pre robotic AI: od trénovania a simulácie cez modelové architektúry až po edge deployment na Jetson Thor. Tento článok vysvetľuje, čo presne robí každá vrstva, kde sú rozhrania a aké open-source komponenty sa dajú reálne používať.


1. Vízia: prečo "fyzická AI" je iná disciplína

LLM (Claude, GPT-5) operujú v digitálnom svete — text in, text out. Robot operuje v fyzickom svete — pixely a sensor reading in, motor commands out. Tri zásadne ťažšie veci:

  • Real-time — humanoid potrebuje rozhodovať každých ~10 ms (100 Hz control loop). Cloud LLM s 2s latency je nepoužiteľný na motor control.

  • Continuous action space — namiesto "tokenu z 50K vocab" musí robot produkovať vektor floating-point hodnôt (joint angles, torques) s presnosťou na desatiny milimetra.

  • Sensor fusion — kamery + lidar + IMU + force sensors + proprioception (joint encoders). Všetko v rôznych frekvenciách, rôznych formátoch, s jitter-om.

Klasické LLM architektúry sú navrhnuté pre diskrétne tokeny a chat-like interakciu. Vision-Language-Action (VLA) modely — ktorých GR00T je zástupca — sú prispôsobené na kontinuálne, multi-modálne in/out a real-time prevádzku.


2. Isaac GR00T — open foundation models

Čo to je

GR00T (skratka Generalist Robot 00 Technology) je rodina open-weight VLA modelov od NVIDIA, primárne navrhnutých pre humanoidné roboty. Aprílové oznámenie 2026 prinieslo:

  • GR00T N1 — foundation model, ~7B parametrov, vstupy: kamera RGB + jazykové instrukcie + robot state, výstupy: action chunks (sekvencie joint targetov)
  • GR00T N1.5 mini — ~1.5B parametrov, optimalizovaný pre Jetson Thor edge inference
  • GR00T tuning datasets — 12 referenčných úloh (pick-and-place, drawer opening, cloth folding, atď.) so syntetickými + reálnymi epizódami

Architektúra (vysokoúrovňovo)

┌────────────────┐    ┌────────────────┐
│  RGB cameras   │    │ Language       │
│  (left+right)  │    │ instruction    │
└────────┬───────┘    └────────┬───────┘
         │                     │
         ▼                     ▼
┌────────────────────────────────┐
│    Vision-Language Encoder     │
│    (CLIP-style, frozen)        │
└────────────────┬───────────────┘
                 │
                 ▼
┌────────────────────────────────┐
│    Diffusion Policy Head       │
│    (action chunks, 16 steps)   │
└────────────────┬───────────────┘
                 │
                 ▼
        Action vector (joint angles)
        @ 100 Hz to robot motors
  • Vision-language encoder je zdielaný modul (často reused z OpenCLIP alebo vlastný NVIDIA pre-train)
  • Action head je diffusion model — predikuje celý chunk akcií naraz, nie iba ďalší krok (smoother control)
  • Action chunking redukuje compounding errors — robot dostane plán na 200 ms dopredu, nie 10 ms

License a download

  • GR00T N1 — NVIDIA Open Model License (komerčné použitie povolené, redistribution s atribúciou)
  • HuggingFace: nvidia/GR00T-N1-7B
  • GitHub: NVIDIA-Isaac-GR00T (training scripts, eval harnesses)

3. Cosmos — world models pre synthetic data

GR00T ako každý ML model potrebuje obrovské množstvo training data. Pre robotiku je problém: real-world demonstrations sú drahé — fyzický robot, fyzický operátor, fyzická scéna, hodiny zberu na jedno cvičenie.

Cosmos je rodina world models od NVIDIA, ktoré generujú syntetické video epizódy robot-environment interakcií. Tréner môže použiť 1000× viac syntetických epizód než real ones, ak Cosmos zachytí dosť vernú dynamiku.

Tri varianty Cosmos

  • Cosmos-Predict — daný počiatočný frame + action sequence, predikuje budúce frames (klasický world model)
  • Cosmos-Transfer — sim-to-real štýl prenos: vstup je render z Isaac Sim, výstup je foto-realistický video frame s realistickým osvetlením, šumom, kamerovými artefaktmi
  • Cosmos-Reason — multimodálny reasoning model nad video sekvenciami; používa sa ako "evaluator" pre GR00T outputs

Tréningový loop s Cosmos

┌─────────────────────────────────────────────────┐
│  1. Real-world demonstrations (small dataset)   │
└────────────────────┬────────────────────────────┘
                     ▼
┌─────────────────────────────────────────────────┐
│  2. Isaac Sim (Newton) — programmatic episodes  │
│     (cheap, but unrealistic visuals)            │
└────────────────────┬────────────────────────────┘
                     ▼
┌─────────────────────────────────────────────────┐
│  3. Cosmos-Transfer — sim → photo-real video    │
└────────────────────┬────────────────────────────┘
                     ▼
┌─────────────────────────────────────────────────┐
│  4. GR00T training on (real + synthetic) mix    │
└─────────────────────────────────────────────────┘

V praxi NVIDIA reportuje 20–50× scale-up training data s minimálnym poklesom sim-to-real performance — kľúčový enabler pre rýchlejší vývoj.


4. Newton 1.0 — fyzika v open-source

Tretia noha stoličky: Newton 1.0 (samostatný článok v tejto KB venuje detailom). Krátko:

  • GPU-akcelerovaný physics engine pre dexterous manipulation (jemná motorika rúk)
  • Differentiable — gradients tečú cez fyziku, takže RL trénovanie je efektívne
  • Apache 2.0 license, Python bindings
  • Integruje sa s Isaac Sim 6.0, Isaac Lab 3.0, Omniverse NuRec
  • Náhradou aspoň čiastočne za MuJoCo / PyBullet pre robotic ML workflows

Pre trénovanie GR00T je Newton dôležitý preto, že simulácia musí byť dosť verná, aby Cosmos-Transfer mal čo prerobiť na realisticky vyzerajúci video.


5. Edge deployment — Jetson Thor

Vyrobiť trénovaný model je polovica práce. Druhá polovica: nasadiť ho na robot tak, aby bežal lokálne, real-time, bez cloud.

NVIDIA Jetson Thor (Blackwell-based edge platform, ~1000+ TOPS INT8 v Transformer Engine, 64 GB unified memory v štandardnej konfigurácii) je oficiálne podporovaná deployment target pre GR00T. Vyššie GB konfigurácie existujú iba v server SKUs. Bežia tam aj iné agentic systémy (napr. OpenClaw na Jetson Thor — pozri samostatný článok).

Praktické tipy:

  • GR00T N1.5 mini je primárne určený pre Jetson Thor — full N1 7B beží len marginálne v reálnom čase
  • TensorRT-LLM a TensorRT pre vision encoder = ~3× speedup oproti raw PyTorch
  • Quantization: INT8 weights + FP16 activations stále dosahujú >95% accuracy oproti FP32
  • Power budget: humanoid roboty typicky majú 200–400W envelope na compute; Jetson Thor sedí v tomto rozpätí

6. Real-world adopcia (apríl 2026)

Kto reálne používa GR00T:

  • Figure AI — Figure 02 humanoid v warehouse pilotných deploymenoch (BMW, Mercedes); reportuje použitie open-source VLA modelov vrátane GR00T family pre manipuláciu
  • 1X Technologies — NEO humanoid pre domácu robotiku
  • Apptronik — Apollo humanoid pre logistiku
  • Sanctuary AI — Phoenix humanoid

Open-source komunita:

  • HuggingFace LeRobot — frameworok integrujúci GR00T s populárnymi humanoid platforms
  • Isaac Lab — referenčné training skripty
  • GR00T cookbook — community-maintained recepty pre konkrétne tasky

7. Limity a kritika

  • Sim-to-real gap stále existuje — Cosmos je impressive, ale realistic shadows, contact friction, deformable objects (textil, tekutiny) sú stále challenging
  • Generalizácia naprieč hardware — GR00T trénovaný pre jeden humanoid (napr. Apollo) sa nedá použiť na druhý (Figure 02) bez retrain-u; "robot foundation model" v plnom zmysle neexistuje
  • Bias na pick-and-place — väčšina training data je manipulation úlohy; navigation, locomotion, social interaction sú slabšie
  • License obmedzenia — NVIDIA Open Model License nie je úplne Apache; niektoré military a competitive AI use-cases sú obmedzené
  • Závislosť na NVIDIA hardware — celý stack je optimalizovaný pre CUDA + Jetson; AMD/Intel alternatives prakticky neexistujú

8. Pre koho má GR00T zmysel

  • Robotic startup-y — okamžitý baseline VLA model namiesto trénovania od nuly
  • Univerzitné labs — výskum nad open-weight foundation modelom
  • Industrial automation — fine-tune na špecifickú warehouse/manufacturing úlohu
  • Hobbisti — DIY humanoid (napr. Open-Source Robotic Humanoid Platform) môže bežať GR00T mini

Pre koho nemá zmysel:

  • Čisto digitálne agentic úlohy (text/code) — použite LLM
  • Už máte custom controller pre vašu úlohu, funguje
  • Nepoužívate NVIDIA hardware

9. Zhrnutie

NVIDIA v apríli 2026 položila silný open-source základ pre fyzickú AI: Isaac GR00T (modely) + Cosmos (synthetic data) + Newton 1.0 (simulácia) + Jetson Thor (edge runtime). Ekosystém je zatiaľ NVIDIA-centric, ale prvýkrát existuje kompletný open-stack pre humanoidnú robotiku, ktorý nie je proprietárna black box.

Pre väčšinu developerov v 2026 GR00T znamená: ak začínate robotický projekt, začnite s GR00T pre-trained modelom + fine-tune na váš špecifický use-case. Trénovanie od nuly je v 99% prípadov chyba.

V H2 2026 očakávame vyzretie ekosystému (community fine-tunes, cross-vendor podpora) a možno GR00T N2 s lepšou cross-hardware generalizáciou.


10. Odkazy