GLM-4.6V / GLM-4.7 / GLM-OCR

Rodina GLM od Z.ai (Zhipu AI) pokrýva tri odlišné typy úloh:

GLM-4.6V je vision-language model (VLM) – zvláda text aj obrázky/video/dokumenty a je stavaný na “vidím → pochopím → spravím”.
GLM-4.7 je flagship LLM – silný na agentické kódovanie, dlhé multi-step úlohy, tool-calling a stabilnejší reasoning.
GLM-OCR je špecializované OCR – cieľ je presne vyťažiť text + tabuľky + vzorce + štruktúru z PDF/scanov a vrátiť to v použiteľnom formáte (napr. Markdown/JSON).

Keď máš screenshot/UI dizajn/PDF so slidmi a chceš z toho spraviť výsledok (kód, report, zhrnutie), najčastejšie začni GLM-4.6V.
Keď riešiš programovanie, refaktor, debugging, návrh architektúry, plánovanie krokov a chceš stabilný “agentic” výkon, najčastejšie začni GLM-4.7.
Keď potrebuješ extrahovať obsah z dokumentov do presnej štruktúry (tabuľky, faktúry, manuály, výkazy), najčastejšie začni GLM-OCR a až potom to prípadne nechaj “dovyrozprávať” LLM.

2) Čo je na týchto modeloch podstatné (hlavné inovácie)

Natívne multimodálne tool-use / function calling
- Obrázky, screenshoty a strany dokumentov vieš posielať tak, aby boli použiteľné priamo v rozhodovaní a volaní nástrojov (bez toho, aby si to najprv ručne prelieval cez OCR → text → ďalšie kroky).
Silné scenáre použitia
- Replikácia frontendu zo screenshotu (“design → code”).
- Vizuálne vyhľadávanie a generovanie ilustrovaných reportov.
- Dlhé dokumenty so zmiešaným obsahom (text + grafy + tabuľky + obrázky) bez straty kontextu.

Thinking režimy, ktoré znižujú rozpad pri dlhých úlohách:
- Interleaved thinking – model si “premyslí” krok pred odpoveďou alebo pred tool-callom.
- Preserved/retention thinking – udrží si konzistentnejšiu logiku naprieč turnami (menej “zabúdania rozhodnutí” v dlhých tasks).
- Turn-level control – vieš premýšľanie zapnúť/vypnúť podľa potreby (rýchlo pri jednoduchom, dôsledne pri zložitom).
Prakticky: je vhodný, keď chceš, aby model dokončil úlohu end-to-end (pochopiť zadanie → rozbiť na kroky → vyprodukovať kompletný kód/patch → vysvetliť riziká → navrhnúť testy).

Je to OCR, ktoré cieli aj na:
- tabuľky (reálne tabuľky, nie len odhadované riadky),
- vzorce,
- layout (štruktúra stránky),
- a information extraction (napr. faktúry, pečiatky, ručné písmo).
V praxi je výborný ako prvý krok pred RAG, archiváciou, databázou alebo automatickým vyhodnocovaním dokumentov.

Vstupy: video / image / text / file
Výstup: text
Kontext: 128K
Varianty (typicky):
- plná verzia (vyššia kvalita),
- “Flash/FlashX” (nižšia latencia/náklady – vhodné na produkčné pipeline alebo prototypy).
Praktická poznámka: pri dlhých multimodálnych dokumentoch (mnoho strán/slidov) je to presne ten typ modelu, ktorý “nezomrie” na tom, že sú grafy, tabuľky a layout.

Vstup/výstup: text → text
Kontext: 200K, maximálny výstup 128K (to je super pri generovaní veľkých patchov, dokumentácie alebo veľkých JSON výstupov).
Pre API a migráciu je dôležité:
- model id býva glm-4.7,
- pri streamingu a tool-calloch existujú voľby typu stream=true a pri tool streamingu napr. tool_stream=true,
- sampling defaults sa často uvádzajú ako temperature=1.0 a top_p=0.95 (a typicky sa odporúča doladiť len jedno).
Pozor pri lokálnych váhach: niektoré runtime/konfigurácie môžu mať praktické limity kontextu (závisí od implementácie tokenizer/config), takže pri “open-weights” nasadení sa oplatí otestovať svoje maximum na konkrétnom stacku.

Vstupy: PDF / JPG / PNG
Limity (prakticky pre pipeline):
- veľkosť súborov (PDF a obrázky majú limit v MB),
- maximálne podporované strany PDF (napr. 100 strán).
Výstupy: text / odkazy na obrázky / Markdown dokumenty (a v praxi často štruktúra použiteľná pre ďalšie spracovanie).
API štýl: typicky špecializovaný endpoint na layout parsing, kde nastavíš model="glm-ocr" a pošleš súbor/URL.

Cloud (Z.ai API):
- najjednoduchšie, rýchle prototypovanie aj produkcia,
- vhodné, keď dokumenty nie sú extrémne citlivé alebo máš vyriešené pravidlá spracovania dát.
Lokálne / self-hosted (open-weights):
- výhoda pre citlivé dáta (zmluvy, faktúry, interné PDF),
- typicky cez inference runtimy ako vLLM/SGLang/Ollama (podľa konkrétneho modelu a podpory).

Pri API sa ceny uvádzajú “per 1M tokenov” (input/output a niekedy aj cached input).
GLM-OCR býva nacenený veľmi lacno a často symetricky pre input aj output.
GLM-4.6V má aj free/“Flash” varianty (vhodné na prototypy alebo lacné spracovanie).
GLM-4.7 má okrem API aj “coding plan” balíky (integrované do populárnych coding nástrojov).
Open-weights modely (ak ich nasadíš lokálne) sú často pod MIT licenciou – dobré pre komerčné aj interné použitie (stále si však pozri konkrétne podmienky pri konkrétnom repozitári/modeli).

Ak ide o citlivé dokumenty (faktúry, zmluvy, HR, interné finančné reporty):
- preferuj lokálne spracovanie (najmä pre OCR),
- alebo aspoň anonymizuj údaje pred odoslaním do cloudu.
Pri extrakcii do JSON/DB:
- nastav si validáciu schémy (aby sa do databázy nedostali “domyslené” polia),
- loguj len nevyhnutné minimum (žiadne celé dokumenty v logoch).
Pri agent workflows (tool-calling):
- stanov pravidlá: čo model smie volať, aké URL/domény, aké typy súborov, limity strán a veľkostí.

Dokument → štruktúra → analýza
- Najprv GLM-OCR: vyťažiť text/tabuľky do Markdown/JSON.
- Potom GLM-4.7: normalizácia, sumarizácia, pravidlá, kontrola konzistencie, generovanie reportu.
Screenshot UI → hotový web
- GLM-4.6V: pixel-štýl replikácia + návrh komponentizácie.
- GLM-4.7: refaktor, typovanie, testy, build pipeline.
Agentic coding (dlhý task)
- GLM-4.7 s thinking režimom: plán → kroky → patch → testy → finálna kontrola.

Pre GLM-OCR:
- „Vyťaž z tohto PDF všetky tabuľky a vráť ich ako JSON podľa schémy … Ak si nie si istý, nechaj null a pridaj notes.“
- „Preveď manuál do Markdown so zachovanými nadpismi, zoznamami, tabuľkami a vzorcami (LaTeX).“
Pre GLM-4.6V:
- „Podľa screenshotu vygeneruj HTML/CSS/JS. Zopakuj layout, typografiu a spacing. Navrhni komponenty.“
- „Pozri sa na tieto slidy a sprav z nich stručný report + vyber 5 najdôležitejších grafov a vysvetli ich.“
Pre GLM-4.7:
- „Navrhni plán v krokoch, potom implementuj. Daj dôraz na testy a regresnú kontrolu.“
- „Refaktoruj modul na čistú architektúru, minimalizuj breaking changes, a vráť patch + migration notes.“