NVIDIA Isaac GR00T a Cosmos — fyzická AI v 2026
Apríl 2026 priniesol zo strany NVIDIA niekoľko významných oznámení v oblasti fyzickej AI (physical AI / embodied AI) — modelovej rodiny zameranej na to, aby roboti porozumeli prirodzenej reči a vykonali komplexné multistep úlohy v reálnom svete. Hlavné nové mená: Isaac GR00T (open foundation models pre humanoidné roboty), Cosmos (world models pre synthetic data), a Newton 1.0 (open-source physics engine pre simuláciu).
Tieto tri komponenty spolu tvoria NVIDIA's full-stack pre robotic AI: od trénovania a simulácie cez modelové architektúry až po edge deployment na Jetson Thor. Tento článok vysvetľuje, čo presne robí každá vrstva, kde sú rozhrania a aké open-source komponenty sa dajú reálne používať.
1. Vízia: prečo "fyzická AI" je iná disciplína
LLM (Claude, GPT-5) operujú v digitálnom svete — text in, text out. Robot operuje v fyzickom svete — pixely a sensor reading in, motor commands out. Tri zásadne ťažšie veci:
Real-time — humanoid potrebuje rozhodovať každých ~10 ms (100 Hz control loop). Cloud LLM s 2s latency je nepoužiteľný na motor control.
Continuous action space — namiesto "tokenu z 50K vocab" musí robot produkovať vektor floating-point hodnôt (joint angles, torques) s presnosťou na desatiny milimetra.
Sensor fusion — kamery + lidar + IMU + force sensors + proprioception (joint encoders). Všetko v rôznych frekvenciách, rôznych formátoch, s jitter-om.
Klasické LLM architektúry sú navrhnuté pre diskrétne tokeny a chat-like interakciu. Vision-Language-Action (VLA) modely — ktorých GR00T je zástupca — sú prispôsobené na kontinuálne, multi-modálne in/out a real-time prevádzku.
2. Isaac GR00T — open foundation models
Čo to je
GR00T (skratka Generalist Robot 00 Technology) je rodina open-weight VLA modelov od NVIDIA, primárne navrhnutých pre humanoidné roboty. Aprílové oznámenie 2026 prinieslo:
- GR00T N1 — foundation model, ~7B parametrov, vstupy: kamera RGB + jazykové instrukcie + robot state, výstupy: action chunks (sekvencie joint targetov)
- GR00T N1.5 mini — ~1.5B parametrov, optimalizovaný pre Jetson Thor edge inference
- GR00T tuning datasets — 12 referenčných úloh (pick-and-place, drawer opening, cloth folding, atď.) so syntetickými + reálnymi epizódami
Architektúra (vysokoúrovňovo)
┌────────────────┐ ┌────────────────┐
│ RGB cameras │ │ Language │
│ (left+right) │ │ instruction │
└────────┬───────┘ └────────┬───────┘
│ │
▼ ▼
┌────────────────────────────────┐
│ Vision-Language Encoder │
│ (CLIP-style, frozen) │
└────────────────┬───────────────┘
│
▼
┌────────────────────────────────┐
│ Diffusion Policy Head │
│ (action chunks, 16 steps) │
└────────────────┬───────────────┘
│
▼
Action vector (joint angles)
@ 100 Hz to robot motors
- Vision-language encoder je zdielaný modul (často reused z OpenCLIP alebo vlastný NVIDIA pre-train)
- Action head je diffusion model — predikuje celý chunk akcií naraz, nie iba ďalší krok (smoother control)
- Action chunking redukuje compounding errors — robot dostane plán na 200 ms dopredu, nie 10 ms
License a download
- GR00T N1 — NVIDIA Open Model License (komerčné použitie povolené, redistribution s atribúciou)
- HuggingFace:
nvidia/GR00T-N1-7B - GitHub:
NVIDIA-Isaac-GR00T(training scripts, eval harnesses)
3. Cosmos — world models pre synthetic data
GR00T ako každý ML model potrebuje obrovské množstvo training data. Pre robotiku je problém: real-world demonstrations sú drahé — fyzický robot, fyzický operátor, fyzická scéna, hodiny zberu na jedno cvičenie.
Cosmos je rodina world models od NVIDIA, ktoré generujú syntetické video epizódy robot-environment interakcií. Tréner môže použiť 1000× viac syntetických epizód než real ones, ak Cosmos zachytí dosť vernú dynamiku.
Tri varianty Cosmos
- Cosmos-Predict — daný počiatočný frame + action sequence, predikuje budúce frames (klasický world model)
- Cosmos-Transfer — sim-to-real štýl prenos: vstup je render z Isaac Sim, výstup je foto-realistický video frame s realistickým osvetlením, šumom, kamerovými artefaktmi
- Cosmos-Reason — multimodálny reasoning model nad video sekvenciami; používa sa ako "evaluator" pre GR00T outputs
Tréningový loop s Cosmos
┌─────────────────────────────────────────────────┐
│ 1. Real-world demonstrations (small dataset) │
└────────────────────┬────────────────────────────┘
▼
┌─────────────────────────────────────────────────┐
│ 2. Isaac Sim (Newton) — programmatic episodes │
│ (cheap, but unrealistic visuals) │
└────────────────────┬────────────────────────────┘
▼
┌─────────────────────────────────────────────────┐
│ 3. Cosmos-Transfer — sim → photo-real video │
└────────────────────┬────────────────────────────┘
▼
┌─────────────────────────────────────────────────┐
│ 4. GR00T training on (real + synthetic) mix │
└─────────────────────────────────────────────────┘
V praxi NVIDIA reportuje 20–50× scale-up training data s minimálnym poklesom sim-to-real performance — kľúčový enabler pre rýchlejší vývoj.
4. Newton 1.0 — fyzika v open-source
Tretia noha stoličky: Newton 1.0 (samostatný článok v tejto KB venuje detailom). Krátko:
- GPU-akcelerovaný physics engine pre dexterous manipulation (jemná motorika rúk)
- Differentiable — gradients tečú cez fyziku, takže RL trénovanie je efektívne
- Apache 2.0 license, Python bindings
- Integruje sa s Isaac Sim 6.0, Isaac Lab 3.0, Omniverse NuRec
- Náhradou aspoň čiastočne za MuJoCo / PyBullet pre robotic ML workflows
Pre trénovanie GR00T je Newton dôležitý preto, že simulácia musí byť dosť verná, aby Cosmos-Transfer mal čo prerobiť na realisticky vyzerajúci video.
5. Edge deployment — Jetson Thor
Vyrobiť trénovaný model je polovica práce. Druhá polovica: nasadiť ho na robot tak, aby bežal lokálne, real-time, bez cloud.
NVIDIA Jetson Thor (Blackwell-based edge platform, ~1000+ TOPS INT8 v Transformer Engine, 64 GB unified memory v štandardnej konfigurácii) je oficiálne podporovaná deployment target pre GR00T. Vyššie GB konfigurácie existujú iba v server SKUs. Bežia tam aj iné agentic systémy (napr. OpenClaw na Jetson Thor — pozri samostatný článok).
Praktické tipy:
- GR00T N1.5 mini je primárne určený pre Jetson Thor — full N1 7B beží len marginálne v reálnom čase
- TensorRT-LLM a TensorRT pre vision encoder = ~3× speedup oproti raw PyTorch
- Quantization: INT8 weights + FP16 activations stále dosahujú >95% accuracy oproti FP32
- Power budget: humanoid roboty typicky majú 200–400W envelope na compute; Jetson Thor sedí v tomto rozpätí
6. Real-world adopcia (apríl 2026)
Kto reálne používa GR00T:
- Figure AI — Figure 02 humanoid v warehouse pilotných deploymenoch (BMW, Mercedes); reportuje použitie open-source VLA modelov vrátane GR00T family pre manipuláciu
- 1X Technologies — NEO humanoid pre domácu robotiku
- Apptronik — Apollo humanoid pre logistiku
- Sanctuary AI — Phoenix humanoid
Open-source komunita:
- HuggingFace LeRobot — frameworok integrujúci GR00T s populárnymi humanoid platforms
- Isaac Lab — referenčné training skripty
- GR00T cookbook — community-maintained recepty pre konkrétne tasky
7. Limity a kritika
- Sim-to-real gap stále existuje — Cosmos je impressive, ale realistic shadows, contact friction, deformable objects (textil, tekutiny) sú stále challenging
- Generalizácia naprieč hardware — GR00T trénovaný pre jeden humanoid (napr. Apollo) sa nedá použiť na druhý (Figure 02) bez retrain-u; "robot foundation model" v plnom zmysle neexistuje
- Bias na pick-and-place — väčšina training data je manipulation úlohy; navigation, locomotion, social interaction sú slabšie
- License obmedzenia — NVIDIA Open Model License nie je úplne Apache; niektoré military a competitive AI use-cases sú obmedzené
- Závislosť na NVIDIA hardware — celý stack je optimalizovaný pre CUDA + Jetson; AMD/Intel alternatives prakticky neexistujú
8. Pre koho má GR00T zmysel
- Robotic startup-y — okamžitý baseline VLA model namiesto trénovania od nuly
- Univerzitné labs — výskum nad open-weight foundation modelom
- Industrial automation — fine-tune na špecifickú warehouse/manufacturing úlohu
- Hobbisti — DIY humanoid (napr. Open-Source Robotic Humanoid Platform) môže bežať GR00T mini
Pre koho nemá zmysel:
- Čisto digitálne agentic úlohy (text/code) — použite LLM
- Už máte custom controller pre vašu úlohu, funguje
- Nepoužívate NVIDIA hardware
9. Zhrnutie
NVIDIA v apríli 2026 položila silný open-source základ pre fyzickú AI: Isaac GR00T (modely) + Cosmos (synthetic data) + Newton 1.0 (simulácia) + Jetson Thor (edge runtime). Ekosystém je zatiaľ NVIDIA-centric, ale prvýkrát existuje kompletný open-stack pre humanoidnú robotiku, ktorý nie je proprietárna black box.
Pre väčšinu developerov v 2026 GR00T znamená: ak začínate robotický projekt, začnite s GR00T pre-trained modelom + fine-tune na váš špecifický use-case. Trénovanie od nuly je v 99% prípadov chyba.
V H2 2026 očakávame vyzretie ekosystému (community fine-tunes, cross-vendor podpora) a možno GR00T N2 s lepšou cross-hardware generalizáciou.
10. Odkazy
- NVIDIA Isaac GR00T (HuggingFace)
- NVIDIA Isaac platform
- NVIDIA Cosmos (announcement)
- Isaac Sim 6.0 docs
- Newton 1.0 docs — open-source physics engine (samostatný článok)
- LeRobot — HuggingFace framework integrujúci GR00T
- Jetson Thor specs — edge deployment platform