GLM-4.6V / GLM-4.7 / GLM-OCR
Rodina GLM od Z.ai (Zhipu AI) pokrýva tri odlišné typy úloh:
GLM-4.6V je vision-language model (VLM) – zvláda text aj obrázky/video/dokumenty a je stavaný na “vidím → pochopím → spravím”.
GLM-4.7 je flagship LLM – silný na agentické kódovanie, dlhé multi-step úlohy, tool-calling a stabilnejší reasoning.
GLM-OCR je špecializované OCR – cieľ je presne vyťažiť text + tabuľky + vzorce + štruktúru z PDF/scanov a vrátiť to v použiteľnom formáte (napr. Markdown/JSON).
1) Úvodný prehľad: kedy ktorý model použiť
Keď máš screenshot/UI dizajn/PDF so slidmi a chceš z toho spraviť výsledok (kód, report, zhrnutie), najčastejšie začni GLM-4.6V.
Keď riešiš programovanie, refaktor, debugging, návrh architektúry, plánovanie krokov a chceš stabilný “agentic” výkon, najčastejšie začni GLM-4.7.
Keď potrebuješ extrahovať obsah z dokumentov do presnej štruktúry (tabuľky, faktúry, manuály, výkazy), najčastejšie začni GLM-OCR a až potom to prípadne nechaj “dovyrozprávať” LLM.
2) Čo je na týchto modeloch podstatné (hlavné inovácie)
GLM-4.6V – “multimodálny agent” bez zbytočných medzi-krokov
Natívne multimodálne tool-use / function calling
- Obrázky, screenshoty a strany dokumentov vieš posielať tak, aby boli použiteľné priamo v rozhodovaní a volaní nástrojov (bez toho, aby si to najprv ručne prelieval cez OCR → text → ďalšie kroky).
Silné scenáre použitia
Replikácia frontendu zo screenshotu (“design → code”).
Vizuálne vyhľadávanie a generovanie ilustrovaných reportov.
Dlhé dokumenty so zmiešaným obsahom (text + grafy + tabuľky + obrázky) bez straty kontextu.
GLM-4.7 – “coding + stabilné multi-step” cez režimy premýšľania
Thinking režimy, ktoré znižujú rozpad pri dlhých úlohách:
Interleaved thinking – model si “premyslí” krok pred odpoveďou alebo pred tool-callom.
Preserved/retention thinking – udrží si konzistentnejšiu logiku naprieč turnami (menej “zabúdania rozhodnutí” v dlhých tasks).
Turn-level control – vieš premýšľanie zapnúť/vypnúť podľa potreby (rýchlo pri jednoduchom, dôsledne pri zložitom).
Prakticky: je vhodný, keď chceš, aby model dokončil úlohu end-to-end (pochopiť zadanie → rozbiť na kroky → vyprodukovať kompletný kód/patch → vysvetliť riziká → navrhnúť testy).
GLM-OCR – “document parsing” ako produkt, nie len prečítanie textu
Je to OCR, ktoré cieli aj na:
tabuľky (reálne tabuľky, nie len odhadované riadky),
vzorce,
layout (štruktúra stránky),
a information extraction (napr. faktúry, pečiatky, ručné písmo).
V praxi je výborný ako prvý krok pred RAG, archiváciou, databázou alebo automatickým vyhodnocovaním dokumentov.
3) Technické detaily, ktoré reálne rozhodujú
GLM-4.6V
Vstupy: video / image / text / file
Výstup: text
Kontext: 128K
Varianty (typicky):
plná verzia (vyššia kvalita),
“Flash/FlashX” (nižšia latencia/náklady – vhodné na produkčné pipeline alebo prototypy).
Praktická poznámka: pri dlhých multimodálnych dokumentoch (mnoho strán/slidov) je to presne ten typ modelu, ktorý “nezomrie” na tom, že sú grafy, tabuľky a layout.
GLM-4.7
Vstup/výstup: text → text
Kontext: 200K, maximálny výstup 128K (to je super pri generovaní veľkých patchov, dokumentácie alebo veľkých JSON výstupov).
Pre API a migráciu je dôležité:
model id býva
glm-4.7,pri streamingu a tool-calloch existujú voľby typu
stream=truea pri tool streamingu napr.tool_stream=true,sampling defaults sa často uvádzajú ako
temperature=1.0atop_p=0.95(a typicky sa odporúča doladiť len jedno).
Pozor pri lokálnych váhach: niektoré runtime/konfigurácie môžu mať praktické limity kontextu (závisí od implementácie tokenizer/config), takže pri “open-weights” nasadení sa oplatí otestovať svoje maximum na konkrétnom stacku.
GLM-OCR
Vstupy: PDF / JPG / PNG
Limity (prakticky pre pipeline):
veľkosť súborov (PDF a obrázky majú limit v MB),
maximálne podporované strany PDF (napr. 100 strán).
Výstupy: text / odkazy na obrázky / Markdown dokumenty (a v praxi často štruktúra použiteľná pre ďalšie spracovanie).
API štýl: typicky špecializovaný endpoint na layout parsing, kde nastavíš
model="glm-ocr"a pošleš súbor/URL.
4) Dostupnosť (ako to používať v praxi)
Cloud (Z.ai API):
najjednoduchšie, rýchle prototypovanie aj produkcia,
vhodné, keď dokumenty nie sú extrémne citlivé alebo máš vyriešené pravidlá spracovania dát.
Lokálne / self-hosted (open-weights):
výhoda pre citlivé dáta (zmluvy, faktúry, interné PDF),
typicky cez inference runtimy ako vLLM/SGLang/Ollama (podľa konkrétneho modelu a podpory).
5) Ceny a licencie (čo si zapamätať)
Pri API sa ceny uvádzajú “per 1M tokenov” (input/output a niekedy aj cached input).
GLM-OCR býva nacenený veľmi lacno a často symetricky pre input aj output.
GLM-4.6V má aj free/“Flash” varianty (vhodné na prototypy alebo lacné spracovanie).
GLM-4.7 má okrem API aj “coding plan” balíky (integrované do populárnych coding nástrojov).
Open-weights modely (ak ich nasadíš lokálne) sú často pod MIT licenciou – dobré pre komerčné aj interné použitie (stále si však pozri konkrétne podmienky pri konkrétnom repozitári/modeli).
6) Bezpečnosť a súkromie (praktické odporúčania)
Ak ide o citlivé dokumenty (faktúry, zmluvy, HR, interné finančné reporty):
preferuj lokálne spracovanie (najmä pre OCR),
alebo aspoň anonymizuj údaje pred odoslaním do cloudu.
Pri extrakcii do JSON/DB:
nastav si validáciu schémy (aby sa do databázy nedostali “domyslené” polia),
loguj len nevyhnutné minimum (žiadne celé dokumenty v logoch).
Pri agent workflows (tool-calling):
- stanov pravidlá: čo model smie volať, aké URL/domény, aké typy súborov, limity strán a veľkostí.
7) Odporúčané workflow (ako to skladať dokopy)
Dokument → štruktúra → analýza
Najprv GLM-OCR: vyťažiť text/tabuľky do Markdown/JSON.
Potom GLM-4.7: normalizácia, sumarizácia, pravidlá, kontrola konzistencie, generovanie reportu.
Screenshot UI → hotový web
GLM-4.6V: pixel-štýl replikácia + návrh komponentizácie.
GLM-4.7: refaktor, typovanie, testy, build pipeline.
Agentic coding (dlhý task)
- GLM-4.7 s thinking režimom: plán → kroky → patch → testy → finálna kontrola.
8) Prompt šablóny (rýchle použitie)
Pre GLM-OCR:
„Vyťaž z tohto PDF všetky tabuľky a vráť ich ako JSON podľa schémy … Ak si nie si istý, nechaj
nulla pridajnotes.“„Preveď manuál do Markdown so zachovanými nadpismi, zoznamami, tabuľkami a vzorcami (LaTeX).“
Pre GLM-4.6V:
„Podľa screenshotu vygeneruj HTML/CSS/JS. Zopakuj layout, typografiu a spacing. Navrhni komponenty.“
„Pozri sa na tieto slidy a sprav z nich stručný report + vyber 5 najdôležitejších grafov a vysvetli ich.“
Pre GLM-4.7:
„Navrhni plán v krokoch, potom implementuj. Daj dôraz na testy a regresnú kontrolu.“
„Refaktoruj modul na čistú architektúru, minimalizuj breaking changes, a vráť patch + migration notes.“