Gemma 4

Gemma 4 je rodina otvorených jazykových modelov od Google DeepMind, vydaná 2. apríla 2026 pod licenciou Apache 2.0. Je to skutočne otvorená rodina modelov – od miniatúrnych variantov pre mobilné zariadenia až po serverové veľkosti – a všetky sú dostupné na komerčné nasadenie bez poplatkov za licenciu.


1. Čo prináša Gemma 4 – prehľad

  • Štyri veľkostné varianty, každý s base (predtrénovaný) a it (instruction-tuned) verziou:

    • Gemma 4 1B — zariadenia na hrane (IoT, smartfóny), vyžaduje ~2 GB RAM

    • Gemma 4 4B — notebooky a jednoduché desktopy (CPU/GPU, 8–16 GB RAM)

    • Gemma 4 12B — pracovné stanice s GPU (24 GB VRAM, napr. RTX 4090)

    • Gemma 4 27B — serverové prostredie, viac GPU alebo výkonná GPU karta (A100/H100)

  • Multimodálna podpora — od variantu 12B vyššie modely zvládajú aj vstup obrázkov (vision), nielen text

  • Trénovacia metodika — Google neposkytol úplné detaily (výcvikové dáta, RLHF pipeline, veľkosť trénovacej sady), čo je bežné aj pre iné open-weight modely; dostupné sú len orientačné informácie o architektúre

(Gemma 4 je priamy nástupca rodiny Gemma 2 a Gemma 3, pričom 27B variant je konkurentom Mistral Large a Llama 3.3 70B v testoch kvality.)


2. Apache 2.0 vs. Llama licencia – prečo na tom záleží

Toto je kľúčový bod pre slovenské a európske firmy:

  • Apache 2.0 (Gemma 4, Mistral Medium 3)

    • bezpodmienečné komerčné použitie – bez obmedzení obratu ani počtu používateľov

    • modifikácia a redistribúcia povolená s uvedením pôvodu

    • žiadne „use policy" addendum – platí štandardná open-source licencia

    • kompatibilné s väčšinou firemných právnych oddelení

  • Llama licencia (Meta Llama 3.x)

    • obsahuje vlastné „Acceptable Use Policy" a „Meta Llama 3 Community License"

    • firmy s viac ako 700 miliónmi MAU potrebujú osobitný súhlas Meta

    • redistribúcia derivátov vyžaduje zachovanie „Llama" v názve produktu

    • pri niektorých komerčných použitiach je nutná registrácia

  • Praktický dopad pre SK/CZ firmy:

    • Gemma 4 a Apache 2.0 modely možno embeddovať do produktov, predávať ako súčasť SaaS, alebo použiť v regulovaných odvetviach (finančné, zdravotnícke) bez právnych komplikácií

    • Pri Llama modeloch je odporúčaná konzultácia s právnikom, najmä ak produkt mieri na globálny trh


3. Pozícia na trhu – Gemma 4 vs. konkurencia

Model Parametre Licencia Multimodál Poznámka
Gemma 4 27B 27B Apache 2.0 ✓ (12B+) Google DeepMind
Llama 3.3 70B 70B Meta Custom Meta, výkonný
Qwen3 32B 32B Apache 2.0 čiastočne Alibaba
Mistral Medium 3 ~70B Apache 2.0 EU compliance
  • Výhoda Gemma 4: Google ekosystém (Vertex AI, Google Cloud), kvalitná kvantizácia, širší hardvérový rozsah

  • Nevýhoda Gemma 4: Google nezverejnil detaily trénovania, čo sťažuje audit pre regulované prostredia

  • Qwen3 od Alibaba je vnímaný ako silný rival v kódovaní a matematike, ale má čínsky pôvod (potenciálna compliance obava pre EU firmy)


4. Multimodálne schopnosti (12B a 27B)

  • Gemma 4 12B a 27B zvládajú obrázkový vstup — popis obrázkov, OCR-like úlohy, analýza grafov

  • Výstup zostáva textový (nejde o generovanie obrázkov)

  • V praxi použiteľné pre:

    • analýzu dokumentov so skenovaným obsahom

    • opis produktových obrázkov v e-commerce

    • vizuálne QA (otázky o obsahu fotky)

(Multimodálna podpora v 1B a 4B variantoch nie je k dispozícii – cielené na čisto textové use-case.)


5. Kvantizovaie – Q4 vs. Q8 v praxi

Kvantizácia znižuje veľkosť modelu a pamäťové nároky na úkor presnosti:

  • Q8 (8-bit) — minimálna strata kvality, odporúčané ak máte dostatočnú VRAM

    • Gemma 4 12B v Q8: ~12 GB VRAM

    • Gemma 4 27B v Q8: ~27 GB VRAM (potrebné viac GPU alebo veľká karta)

  • Q4 (4-bit) — polovičná veľkosť, merateľná strata na dlhých a zložitých úlohách

    • Gemma 4 12B v Q4: ~6–7 GB VRAM (zmestí sa na RTX 3060/4060)

    • Gemma 4 27B v Q4: ~14–16 GB VRAM (RTX 4090 zvládne)

  • Odporúčanie: pre produkčné nasadenie Q8 alebo Q6, pre experimentovanie/prototypy Q4 postačí

  • GGUF formát (pre llama.cpp a Ollama) podporuje aj hybridné kvantizovania ako Q5_K_M – dobrý kompromis medzi veľkosťou a kvalitou


6. Ako spustiť Gemma 4 lokálne

Ollama – najjednoduchšia cesta pre jednotlivcov a tímy:

ollama pull gemma4:12b
ollama run gemma4:12b
# Instruction-tuned variant (pre chat)
ollama pull gemma4:27b-it
ollama run gemma4:27b-it

llama.cpp – pre maximálnu kontrolu a CPU inferenčné nasadenie:

./llama-cli -m gemma-4-12b-q8_0.gguf -p "Vysvetli mi kvantizovaie LLM" -n 512

vLLM – pre serverové nasadenie s OpenAI-kompatibilným API:

python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --dtype bfloat16

(API ID na Hugging Face Hub: google/gemma-4-1b, google/gemma-4-4b, google/gemma-4-12b, google/gemma-4-27b — s príponou -it pre instruction-tuned varianty.)

Google AI Studio / Vertex AI — cloudová alternatíva pre tímy bez vlastného GPU servera


7. EU AI Act a open-weight modely

Gemma 4 vstupuje na trh v čase, keď sa EU AI Act prakticky uplatňuje:

  • GPAI (General Purpose AI) pravidlá sú v plnej sile od augusta 2025

    • modely s viac ako 10^25 FLOP trénovania podliehajú rozšíreným povinnostiam (systémové riziká)

    • Google musí zverejniť základné informácie o trénovaní (abstraktná úroveň)

  • Apache 2.0 ≠ úplná zodpovednosť na Google — pri nasadení Gemma 4 vo vašom produkte ste vy prevádzkovateľom a váš systém podlieha klasifikácii rizika podľa use-case

  • Prakticky: nasadenie Gemma 4 na HR screening alebo medicínske rozhodovanie = vysoké riziko → nutný konformitný postup (technická dokumentácia, logbooky, ľudský dohľad)

  • CRA (Cyber Resilience Act) — reportovacia povinnosť pre zraniteľnosti od septembra 2026; open-weight modely v produktoch sú súčasťou tejto legislatívy

(Odporúčanie: vždy konzultujte konkrétny use-case so svojím DPO alebo právnym oddelením. „Open-source" neznamená „bez regulačnej záťaže".)


8. Kedy použiť ktorý variant

  • 1B — mobilné aplikácie, edge AI (Raspberry Pi, smartfóny s NPU), rýchla klasifikácia, jednoduchý chatbot offline

  • 4B — firemné laptopy, lokálny asistent pre vývojárov, jednoduchý RAG bez GPU servera

  • 12B — tímový lokálny model, multimodálne úlohy (obrázky + text), customer support bot, RAG nad internými dokumentmi

  • 27B — produkčný server, komplexné generovanie textu, code review, preklad veľkých objemov


Quick Reference

  • Licencia: Apache 2.0 (plné komerčné použitie)

  • Vydané: 2026-04-02

  • Hugging Face: google/gemma-4-{1b,4b,12b,27b}[-it]

  • Ollama: gemma4:{1b,4b,12b,27b}[-it]

  • Multimodál: áno (12B a 27B)

  • Kvantizácia: Q4/Q5/Q8 cez GGUF, bfloat16 pre GPU


Zhrnutie

  • Gemma 4 je momentálne najdostupnejšia open-weight rodina s komerčne priateľskou licenciou, pokrývajúca celé spektrum od mobilných zariadení po serverové GPU.

  • Apache 2.0 licencia je kľúčová výhoda pre slovenské a európske firmy, ktoré potrebujú právnu istotu pri embedovaní AI do produktov.

  • Pre lokálne nasadenie odporúčame 12B-it v Q8 ako dobrý kompromis medzi výkonom a dostupnosťou hardvéru, alebo 27B-it pre tímy so serverovým GPU.

  • V kontexte EU AI Act platí: open-weight model vo vašom produkte = vaša zodpovednosť za klasifikáciu rizika a konformitu.