LLaMA

LLaMA/Llama je rodina veľkých jazykových modelov od Meta, pri ktorých je kľúčová myšlienka „otvorené váhy“: model si vieš stiahnuť, nasadiť na vlastnom hardvéri a prispôsobiť ho. V praxi to znamená viac kontroly nad nákladmi, súkromím aj nad tým, čo presne model robí.

1. Čo to je a prečo je to podstatné

Nie úplne open-source: Okolo Llama je dôležitá nuansa: „open-weights“ neznamená automaticky open-source v zmysle OSI. Licencia má podmienky a obmedzenia, ktoré pri klasickom open-source softvéri nebývajú.
Ekosystém okolo modelu: Keď je model dostupný mimo jedného poskytovateľa, prirodzene vzniká ekosystém nástrojov (lokálne inference, kvantizácie, RAG, fine-tuning, bezpečnostné “guard” modely). Pri Llama je ten ekosystém jeden z najživších.
Prečo ťa to zaujme v praxi: Ak riešiš firemné dokumenty, interný chatbot, asistent v aplikácii alebo automatizácie, Llama je často cesta, ako to spraviť bez toho, aby si všetko posielal do cudzieho cloudu.

2. Technické detaily, ktoré ťa reálne budú zaujímať

Architektúra: Llama 3 je „dense“ Transformer (v každom kroku sa používa celý model), zatiaľ čo Llama 4 prešla na Mixture of Experts (MoE) – zjednodušene: model má viac „špecialistov“ a pre každý token aktivuje len časť z nich, čo vie zlepšiť pomer výkon/spotreba.
Kontextové okno:
- pri Llama 3 (vrátane 3.1) sa často spomína do 128K tokenov kontextu (čo je rádovo stovky strán textu, závisí od jazyka a formátu).
- pri Llama 4 sa komunikuje výrazne dlhší kontext – pri niektorých variantoch až 10 miliónov tokenov. To je skôr „archív“ než bežný chat: celé dlhé logy, veľké codebase, rozsiahle znalostné bázy.
Multimodalita:
- Llama 3.2 má aj „vision“ modely (text + obrázok vstup, text výstup) v konkrétnych veľkostiach.
- Llama 4 sa profiluje ako „natively multimodal“ rodina (opäť: závisí od konkrétneho variantu).
Veľkosť modelu a nároky: Čím väčší model, tým vyššie nároky na VRAM/RAM, ale aj potenciálne stabilnejšie odpovede v ťažších úlohách (zložité zadania, dlhšie plánovanie, konzistentnosť). Pri MoE si však všímaj rozdiel medzi aktívnymi a celkovými parametrami – pri nasadení je kľúčové, čo sa reálne aktivuje počas výpočtu.

Mini prehľad variantov (orientačne):

Vetva	Príklady modelov	Kontext	Multimodalita	Na čo je to dobré
Llama 3.1	napr. 405B (dense)	do 128K	nie	náročné textové úlohy, serverové nasadenie
Llama 3.2	1B/3B (text), 11B/90B (vision)	128K	pri 11B/90B áno	mobil/edge, ľahké lokálne použitie, aj práca s obrazom
Llama 4	Scout, Maverick (MoE)	až 10M (podľa variantu)	áno	extrémne dlhý kontext, multimodálne úlohy, efektívnejší výkon

3. Dostupnosť: kde a ako to vieš použiť

Stiahnutie váh a lokálne spustenie: Najčastejšie cez repozitáre Meta na Hugging Face (vyžaduje odsúhlasenie licenčných podmienok).
Lokálne runtime nástroje:
- llama.cpp je populárny spôsob, ako bežať modely efektívne (často s kvantizáciou) aj bez „obrovského“ GPU, vrátane formátu GGUF.
- V praxi sa často používa aj cez rôzne „launcher“ vrstvy (napr. knižnice a lokálne servery), ktoré z LLM spravia lokálnu službu pre tvoju aplikáciu.
Cloud poskytovatelia a managed služby: Llama modely bývajú dostupné aj cez veľkých cloud hráčov (napr. Amazon Bedrock pre Llama 3.2). To je kompromis: získaš pohodlie, ale dáta idú mimo tvoj stroj.
Meta AI v produktoch Meta: Llama je základ aj pre Meta AI asistenta (WhatsApp, Messenger, Instagram, Facebook). V Európe prebehlo spustenie a rozširovanie v roku 2025.
Llama API od Meta: Meta zároveň ponúka vlastné API pre prístup k „latest“ Llama modelom (podmienky a dostupnosť môžu byť regionálne odlišné).

4. Ceny a licencie: čo si všímať

Model samotný vs. prevádzka: Aj keď sú váhy dostupné, „zadarmo“ nie je výpočet. Pri lokálnom behu platíš hardvér a elektrinu; pri cloude platíš tokeny/čas GPU podľa cenníka poskytovateľa.
Komunitná licencia (nie OSI open-source): Licencia Llama je „source-available“/community štýl – povoľuje široké použitie, ale s pravidlami.
Obmedzenia pre extrémne veľké platformy: V licencii sa objavuje klauzula, že subjekty nad určitý prah (napr. 700 miliónov mesačne aktívnych používateľov) musia žiadať dodatočné povolenie/licenciu. Bežného vývojára sa to typicky netýka, ale je to dôvod, prečo sa vedie debata o tom, či je to „open-source“.
Ak chceš presné čísla: pri API (Meta alebo tretie strany) sa ceny menia – najbezpečnejšie je brať to priamo z aktuálneho cenníka poskytovateľa.

5. Bezpečnosť a súkromie: rozdiel medzi lokálne a v cloude

Lokálne nasadenie = viac súkromia (ak to spravíš dobre): Keď model beží u teba, citlivé texty nemusia opustiť tvoju infraštruktúru. Ale stále platí: logy, monitoring a zálohy môžu omylom ukladať citlivé dáta – nastav si to vedome.
Cloud/API = pohodlie, ale iné riziká: Pri API sa tvoje vstupy spracúvajú na serveroch poskytovateľa; pravidlá (logovanie, retenčné doby, použitie na zlepšovanie služby) sa líšia. Pred nasadením do firmy si prečítaj podmienky.
Prompt injection a „neposlušné“ vstupy: Ak robíš RAG nad dokumentmi alebo dávaš modelu nástroje, rátaj s tým, že text môže obsahovať pokyny typu „ignoruj pravidlá“. Na to existujú špecializované guard modely: napr. Prompt Guard (detekcia injection/jailbreak) a Llama Guard (moderácia).
Supply-chain pri váhach: Sťahuj váhy z overených zdrojov (oficiálne repozitáre), inak riskuješ upravené checkpointy alebo nekompatibilné formáty.

6. Praktické tipy: kedy to použiť a ako z toho dostať lepšie výsledky

Vyber si veľkosť podľa úlohy, nie podľa ego:
- 1B/3B: jednoduché sumarizácie, klasifikácie, „asistent“ v aplikácii, často aj na slabšom hardvéri.
- 11B/90B vision: keď potrebuješ obrázky (snímky, fotky, dokumenty) a chceš textové odpovede.
- veľké modely / Llama 4: keď riešiš dlhý kontext, zložitejšie plánovanie alebo komplexné QA nad veľkým množstvom textu.
RAG je často lepší než „nalievanie všetkého do promptu“: Namiesto toho, aby si modelu dával 200 strán dokumentácie, sprav vyhľadanie relevantných pasáží a tie vlož do kontextu. Je to lacnejšie, rýchlejšie a kontrolovateľnejšie.
Kvantizácia a formáty: Ak chceš lokálne spustenie, sleduj ekosystém okolo GGUF/llama.cpp – často je rozdiel medzi „nejde to“ a „ide to plynulo“ práve v kvantizácii a správnom formáte.
Dlhý kontext ≠ automaticky lepšie odpovede: Veľké kontexty sú super na archiváciu, ale model aj tak potrebuje dobrú štruktúru: nadpisy, odrážky, „čo je cieľ“, „aké sú obmedzenia“. Inak sa utopí v šume.
Kedy Llama nemusí byť najlepšia voľba:
- keď potrebuješ garantované SLA a auditovateľné enterprise politiky – niekedy je jednoduchšie ísť cez komerčné API s jasnými zmluvami,
- keď chceš „klikni a hotovo“ bez správy infraštruktúry,
- keď licenčné podmienky tvojho produktu vyžadujú striktne OSI open-source.

Zhrnutie

Llama je praktická cesta k AI, ktorú vieš mať pod kontrolou – od lokálneho behu až po nasadenie vo vlastnom cloude.
Najväčší rozdiel oproti „API-only“ modelom je otvorenosť váh, no zároveň treba počítať s licenčnými podmienkami, ktoré nie sú klasický open-source.
Technicky sa oplatí vnímať kontext, multimodalitu a architektúru (dense vs MoE) – od toho sa odvíjajú nároky aj typ úloh, kde model dáva zmysel.
Ak to chceš používať bezpečne, rieš prompt injection a prácu s dátami – guard modely a rozumné logovanie sú často dôležitejšie než „o koľko je model silnejší“.