LLaMA

LLaMA/Llama je rodina veľkých jazykových modelov od Meta, pri ktorých je kľúčová myšlienka „otvorené váhy“: model si vieš stiahnuť, nasadiť na vlastnom hardvéri a prispôsobiť ho. V praxi to znamená viac kontroly nad nákladmi, súkromím aj nad tým, čo presne model robí.


1. Čo to je a prečo je to podstatné

  • Nie úplne open-source: Okolo Llama je dôležitá nuansa: „open-weights“ neznamená automaticky open-source v zmysle OSI. Licencia má podmienky a obmedzenia, ktoré pri klasickom open-source softvéri nebývajú.
  • Ekosystém okolo modelu: Keď je model dostupný mimo jedného poskytovateľa, prirodzene vzniká ekosystém nástrojov (lokálne inference, kvantizácie, RAG, fine-tuning, bezpečnostné “guard” modely). Pri Llama je ten ekosystém jeden z najživších.
  • Prečo ťa to zaujme v praxi: Ak riešiš firemné dokumenty, interný chatbot, asistent v aplikácii alebo automatizácie, Llama je často cesta, ako to spraviť bez toho, aby si všetko posielal do cudzieho cloudu.

2. Technické detaily, ktoré ťa reálne budú zaujímať

  • Architektúra: Llama 3 je „dense“ Transformer (v každom kroku sa používa celý model), zatiaľ čo Llama 4 prešla na Mixture of Experts (MoE) – zjednodušene: model má viac „špecialistov“ a pre každý token aktivuje len časť z nich, čo vie zlepšiť pomer výkon/spotreba.
  • Kontextové okno:
    • pri Llama 3 (vrátane 3.1) sa často spomína do 128K tokenov kontextu (čo je rádovo stovky strán textu, závisí od jazyka a formátu).
    • pri Llama 4 sa komunikuje výrazne dlhší kontext – pri niektorých variantoch až 10 miliónov tokenov. To je skôr „archív“ než bežný chat: celé dlhé logy, veľké codebase, rozsiahle znalostné bázy.
  • Multimodalita:
    • Llama 3.2 má aj „vision“ modely (text + obrázok vstup, text výstup) v konkrétnych veľkostiach.
    • Llama 4 sa profiluje ako „natively multimodal“ rodina (opäť: závisí od konkrétneho variantu).
  • Veľkosť modelu a nároky: Čím väčší model, tým vyššie nároky na VRAM/RAM, ale aj potenciálne stabilnejšie odpovede v ťažších úlohách (zložité zadania, dlhšie plánovanie, konzistentnosť). Pri MoE si však všímaj rozdiel medzi aktívnymi a celkovými parametrami – pri nasadení je kľúčové, čo sa reálne aktivuje počas výpočtu.

Mini prehľad variantov (orientačne):

Vetva Príklady modelov Kontext Multimodalita Na čo je to dobré
Llama 3.1 napr. 405B (dense) do 128K nie náročné textové úlohy, serverové nasadenie
Llama 3.2 1B/3B (text), 11B/90B (vision) 128K pri 11B/90B áno mobil/edge, ľahké lokálne použitie, aj práca s obrazom
Llama 4 Scout, Maverick (MoE) až 10M (podľa variantu) áno extrémne dlhý kontext, multimodálne úlohy, efektívnejší výkon

3. Dostupnosť: kde a ako to vieš použiť

  • Stiahnutie váh a lokálne spustenie: Najčastejšie cez repozitáre Meta na Hugging Face (vyžaduje odsúhlasenie licenčných podmienok).
  • Lokálne runtime nástroje:
    • llama.cpp je populárny spôsob, ako bežať modely efektívne (často s kvantizáciou) aj bez „obrovského“ GPU, vrátane formátu GGUF.
    • V praxi sa často používa aj cez rôzne „launcher“ vrstvy (napr. knižnice a lokálne servery), ktoré z LLM spravia lokálnu službu pre tvoju aplikáciu.
  • Cloud poskytovatelia a managed služby: Llama modely bývajú dostupné aj cez veľkých cloud hráčov (napr. Amazon Bedrock pre Llama 3.2). To je kompromis: získaš pohodlie, ale dáta idú mimo tvoj stroj.
  • Meta AI v produktoch Meta: Llama je základ aj pre Meta AI asistenta (WhatsApp, Messenger, Instagram, Facebook). V Európe prebehlo spustenie a rozširovanie v roku 2025.
  • Llama API od Meta: Meta zároveň ponúka vlastné API pre prístup k „latest“ Llama modelom (podmienky a dostupnosť môžu byť regionálne odlišné).

4. Ceny a licencie: čo si všímať

  • Model samotný vs. prevádzka: Aj keď sú váhy dostupné, „zadarmo“ nie je výpočet. Pri lokálnom behu platíš hardvér a elektrinu; pri cloude platíš tokeny/čas GPU podľa cenníka poskytovateľa.
  • Komunitná licencia (nie OSI open-source): Licencia Llama je „source-available“/community štýl – povoľuje široké použitie, ale s pravidlami.
  • Obmedzenia pre extrémne veľké platformy: V licencii sa objavuje klauzula, že subjekty nad určitý prah (napr. 700 miliónov mesačne aktívnych používateľov) musia žiadať dodatočné povolenie/licenciu. Bežného vývojára sa to typicky netýka, ale je to dôvod, prečo sa vedie debata o tom, či je to „open-source“.
  • Ak chceš presné čísla: pri API (Meta alebo tretie strany) sa ceny menia – najbezpečnejšie je brať to priamo z aktuálneho cenníka poskytovateľa.

5. Bezpečnosť a súkromie: rozdiel medzi lokálne a v cloude

  • Lokálne nasadenie = viac súkromia (ak to spravíš dobre): Keď model beží u teba, citlivé texty nemusia opustiť tvoju infraštruktúru. Ale stále platí: logy, monitoring a zálohy môžu omylom ukladať citlivé dáta – nastav si to vedome.
  • Cloud/API = pohodlie, ale iné riziká: Pri API sa tvoje vstupy spracúvajú na serveroch poskytovateľa; pravidlá (logovanie, retenčné doby, použitie na zlepšovanie služby) sa líšia. Pred nasadením do firmy si prečítaj podmienky.
  • Prompt injection a „neposlušné“ vstupy: Ak robíš RAG nad dokumentmi alebo dávaš modelu nástroje, rátaj s tým, že text môže obsahovať pokyny typu „ignoruj pravidlá“. Na to existujú špecializované guard modely: napr. Prompt Guard (detekcia injection/jailbreak) a Llama Guard (moderácia).
  • Supply-chain pri váhach: Sťahuj váhy z overených zdrojov (oficiálne repozitáre), inak riskuješ upravené checkpointy alebo nekompatibilné formáty.

6. Praktické tipy: kedy to použiť a ako z toho dostať lepšie výsledky

  • Vyber si veľkosť podľa úlohy, nie podľa ego:
    • 1B/3B: jednoduché sumarizácie, klasifikácie, „asistent“ v aplikácii, často aj na slabšom hardvéri.
    • 11B/90B vision: keď potrebuješ obrázky (snímky, fotky, dokumenty) a chceš textové odpovede.
    • veľké modely / Llama 4: keď riešiš dlhý kontext, zložitejšie plánovanie alebo komplexné QA nad veľkým množstvom textu.
  • RAG je často lepší než „nalievanie všetkého do promptu“: Namiesto toho, aby si modelu dával 200 strán dokumentácie, sprav vyhľadanie relevantných pasáží a tie vlož do kontextu. Je to lacnejšie, rýchlejšie a kontrolovateľnejšie.
  • Kvantizácia a formáty: Ak chceš lokálne spustenie, sleduj ekosystém okolo GGUF/llama.cpp – často je rozdiel medzi „nejde to“ a „ide to plynulo“ práve v kvantizácii a správnom formáte.
  • Dlhý kontext ≠ automaticky lepšie odpovede: Veľké kontexty sú super na archiváciu, ale model aj tak potrebuje dobrú štruktúru: nadpisy, odrážky, „čo je cieľ“, „aké sú obmedzenia“. Inak sa utopí v šume.
  • Kedy Llama nemusí byť najlepšia voľba:
    • keď potrebuješ garantované SLA a auditovateľné enterprise politiky – niekedy je jednoduchšie ísť cez komerčné API s jasnými zmluvami,
    • keď chceš „klikni a hotovo“ bez správy infraštruktúry,
    • keď licenčné podmienky tvojho produktu vyžadujú striktne OSI open-source.

Zhrnutie

  • Llama je praktická cesta k AI, ktorú vieš mať pod kontrolou – od lokálneho behu až po nasadenie vo vlastnom cloude.
  • Najväčší rozdiel oproti „API-only“ modelom je otvorenosť váh, no zároveň treba počítať s licenčnými podmienkami, ktoré nie sú klasický open-source.
  • Technicky sa oplatí vnímať kontext, multimodalitu a architektúru (dense vs MoE) – od toho sa odvíjajú nároky aj typ úloh, kde model dáva zmysel.
  • Ak to chceš používať bezpečne, rieš prompt injection a prácu s dátami – guard modely a rozumné logovanie sú často dôležitejšie než „o koľko je model silnejší“.