Malé jazykové modely (SLM): AI v každom zariadení

Zatiaľ čo svet sleduje závod frontiérových modelov s stovkami miliárd parametrov, tichá revolúcia prebieha v opačnom smere — smerom k menším, rýchlejším a súkromnejším modelom, ktoré fungujú priamo na vašom zariadení bez internetu.

1. Čo je malý jazykový model?

Malý jazykový model (Small Language Model, SLM) je jazykový model navrhnutý tak, aby bežal efektívne na obmedzenom hardvéri — notebooku, mobilnom telefóne alebo embedded systéme — bez nutnosti pripojenia ku cloudovej infraštruktúre.

Neexistuje pevná hranica, ale praktická definícia sa ustálila na:

< 1 miliardy parametrov — ultra-kompaktné modely (SmolLM2, MobileLLM)
1 – 7 miliárd parametrov — bežne nasaditeľné SLM (Phi-4-mini, Gemma 3 2B, Llama 3.2 3B)
7 – 14 miliárd parametrov — hraničná kategória (Phi-4, Mistral 7B)

Kľúčový rozdiel oproti kvantizovaným verziám veľkých modelov: SLM sú od základu navrhnuté pre efektivitu. Ich architektúra, tréningové dáta aj technika knowledge distillation sú optimalizované pre malý počet parametrov — nie len osekaný veľký model.

2. Prečo SLM práve teraz?

Explózia záujmu o malé modely nie je náhodná. Súvisí s konvergenciou niekoľkých trendov naraz.

Technické faktory:

Pokroky v knowledge distillation — SLM sa učia od frontier modelov a dosahujú prekvapivú kvalitu
Efektívnejšie architektúry (grouped query attention, sliding window attention) znižujú pamäťové nároky
Kvantizácia umožňuje beh modelov v 4-bitovej presnosti bez veľkej straty kvality

Regulačné a obchodné faktory:

EU AI Act a GDPR vytvárajú tlak na on-premise a on-device spracovanie citlivých dát
Firmy nechcú posielať interné dokumenty do cudzích cloudov
Latencia cloudových API nie je akceptovateľná pre real-time aplikácie

Hardvérový pokrok:

Apple Silicon (M4) zvládne 13B model v plnej presnosti v unifikovanej RAM
Snapdragon X Elite a Intel Core Ultra majú dedikované NPU čipy
NVIDIA Jetson Thor umožňuje priemyselnú edge AI

3. Prehľad hlavných SLM modelov v 2026

Model	Tvorca	Parametre	Silná stránka
Phi-4-mini	Microsoft	3,8 B	Reasoning, matematika, kód
Phi-4	Microsoft	14 B	Benchmark líder kategórie
Gemma 3 2B	Google DeepMind	2 B	Multimodálne úlohy, multilingual
SmolLM2	Hugging Face	135 M – 1,7 B	Ultra-kompaktné nasadenie
Llama 3.2 3B	Meta	3 B	Otvorené váhy, mobilné zariadenia
Mistral 7B	Mistral AI	7 B	Všeobecné úlohy, permisívna licencia
Qwen2.5-3B	Alibaba	3 B	Viacjazyčnosť vrátane ázijských jazykov

Microsoft Phi-séria patrí k najdôležitejším inováciám v kategórii. Výskumný tím zistil, že vysoká kvalita tréningových dát — syntetické dáta generované frontier modelmi — umožňuje dosiahnuť pozoruhodné výsledky aj s zlomkom parametrov. Phi-4-mini (3,8B) prekonáva na viacerých benchmarkoch modely s trojnásobne vyšším počtom parametrov.

4. Praktické nasadenie SLM

SLM riešia problémy, kde cloudové modely zlyhávajú alebo sú nevhodné.

Zdravotníctvo a právnictvo Nemocnice a advokátske kancelárie spracúvajú dokumenty chránené reguláciami. SLM bežiace lokálne eliminujú riziko úniku pacientskych alebo klientskych dát do cudzích serverov.

Offline a nízko-konektívne prostredie Terénni pracovníci, priemyselné haly bez Wi-Fi, vojenské aplikácie — všade tam, kde spoľahlivý internet nie je dostupný alebo nie je žiaduci.

Latencia-senzitívne aplikácie Hlasové asistenty musia odpovedať do 300 ms. Cloudové round-tripy (200–500 ms sieť + inference) to neumožňujú. SLM na lokálnom NPU dokáže odpovedať v reálnom čase.

Personalizácia bez zdieľania dát Emailový asistent, ktorý číta vaše správy, ale nikdy ich neposiela na externý server. Osobný denník s AI funkciami, ktorý zostane skutočne súkromný.

Príklad rýchleho lokálneho nasadenia pomocou nástroja llama.cpp:

# Stiahnutie kvantizovaného modelu
huggingface-cli download microsoft/Phi-4-mini-instruct \
  --include "*.gguf" --local-dir ./models

# Lokálny beh bez internetu
./llama-cli -m ./models/phi-4-mini-q4_k_m.gguf \
  -p "Vysvetli mi, ako funguje gradient descent." \
  -n 512 --no-mmap

5. Limity a kam smeruje vývoj

SLM nie sú riešením na všetko — ich obmedzenia treba brať vážne.

Kvalitatívne obmedzenia Frontier modely (Claude Opus, GPT-5) výrazne prevyšujú SLM v komplexnom viacstupňovom uvažovaní, zriedkavých vedomostiach a kreatívnych úlohách. Pre hlboký výskum, komplexné kódovanie alebo právnu analýzu SLM väčšinou nestačia.

Kontextové okno Väčšina SLM pracuje s kontextom 4K–32K tokenov. Frontier modely ponúkajú 1M+. Spracovanie dlhých zmlúv, kódových repozitárov alebo výskumných správ zostáva výzvou.

Viacjazyčnosť Výsledky anglických benchmarkov neklesajú proporcionálne pri prechode na iné jazyky. Slovenčina, čeština a jazyky s menšou tréningovou reprezentáciou trpia výrazne viac — chyby v gramatike a faktoch sú bežnejšie.

Bezpečnosť Malé modely sú citlivejšie na jailbreaking a prompt injection. Bez cloudovej moderácie a safety vrstvy je bezpečnosť zodpovednosťou toho, kto model nasadzuje.

Kam smeruje vývoj v druhej polovici 2026:

Speculative decoding — SLM ako rýchly draft model, frontier LLM overuje výsledky
Hybridné architektúry — SLM lokálne pre rutinné otázky, cloud pre komplexné časti
Kontinuálne dolaďovanie (continuous fine-tuning) priamo na zariadení z interakcií používateľa
MoE architektúry v SLM priestore — aktivovať len relevantné skupiny neurónov

Zhrnutie: Malé jazykové modely nie sú len odľahčenou verziou veľkých modelov — predstavujú samostatný architektonický smer, kde súkromie, nízka latencia a nezávislosť od cloudu majú prednosť pred surovou výkonnosťou. V roku 2026 sa SLM stávajú základným stavebným prvkom AI aplikácií, ktoré musia fungovať tam, kde cloud nemôže alebo nesmie.