GLM-4.6V / GLM-4.7 / GLM-OCR

Rodina GLM od Z.ai (Zhipu AI) pokrýva tri odlišné typy úloh:

  • GLM-4.6V je vision-language model (VLM) – zvláda text aj obrázky/video/dokumenty a je stavaný na “vidím → pochopím → spravím”.

  • GLM-4.7 je flagship LLM – silný na agentické kódovanie, dlhé multi-step úlohy, tool-calling a stabilnejší reasoning.

  • GLM-OCR je špecializované OCR – cieľ je presne vyťažiť text + tabuľky + vzorce + štruktúru z PDF/scanov a vrátiť to v použiteľnom formáte (napr. Markdown/JSON).


1) Úvodný prehľad: kedy ktorý model použiť

  • Keď máš screenshot/UI dizajn/PDF so slidmi a chceš z toho spraviť výsledok (kód, report, zhrnutie), najčastejšie začni GLM-4.6V.

  • Keď riešiš programovanie, refaktor, debugging, návrh architektúry, plánovanie krokov a chceš stabilný “agentic” výkon, najčastejšie začni GLM-4.7.

  • Keď potrebuješ extrahovať obsah z dokumentov do presnej štruktúry (tabuľky, faktúry, manuály, výkazy), najčastejšie začni GLM-OCR a až potom to prípadne nechaj “dovyrozprávať” LLM.


2) Čo je na týchto modeloch podstatné (hlavné inovácie)

GLM-4.6V – “multimodálny agent” bez zbytočných medzi-krokov

  • Natívne multimodálne tool-use / function calling

    • Obrázky, screenshoty a strany dokumentov vieš posielať tak, aby boli použiteľné priamo v rozhodovaní a volaní nástrojov (bez toho, aby si to najprv ručne prelieval cez OCR → text → ďalšie kroky).
  • Silné scenáre použitia

    • Replikácia frontendu zo screenshotu (“design → code”).

    • Vizuálne vyhľadávanie a generovanie ilustrovaných reportov.

    • Dlhé dokumenty so zmiešaným obsahom (text + grafy + tabuľky + obrázky) bez straty kontextu.

GLM-4.7 – “coding + stabilné multi-step” cez režimy premýšľania

  • Thinking režimy, ktoré znižujú rozpad pri dlhých úlohách:

    • Interleaved thinking – model si “premyslí” krok pred odpoveďou alebo pred tool-callom.

    • Preserved/retention thinking – udrží si konzistentnejšiu logiku naprieč turnami (menej “zabúdania rozhodnutí” v dlhých tasks).

    • Turn-level control – vieš premýšľanie zapnúť/vypnúť podľa potreby (rýchlo pri jednoduchom, dôsledne pri zložitom).

  • Prakticky: je vhodný, keď chceš, aby model dokončil úlohu end-to-end (pochopiť zadanie → rozbiť na kroky → vyprodukovať kompletný kód/patch → vysvetliť riziká → navrhnúť testy).

GLM-OCR – “document parsing” ako produkt, nie len prečítanie textu

  • Je to OCR, ktoré cieli aj na:

    • tabuľky (reálne tabuľky, nie len odhadované riadky),

    • vzorce,

    • layout (štruktúra stránky),

    • a information extraction (napr. faktúry, pečiatky, ručné písmo).

  • V praxi je výborný ako prvý krok pred RAG, archiváciou, databázou alebo automatickým vyhodnocovaním dokumentov.


3) Technické detaily, ktoré reálne rozhodujú

GLM-4.6V

  • Vstupy: video / image / text / file

  • Výstup: text

  • Kontext: 128K

  • Varianty (typicky):

    • plná verzia (vyššia kvalita),

    • “Flash/FlashX” (nižšia latencia/náklady – vhodné na produkčné pipeline alebo prototypy).

  • Praktická poznámka: pri dlhých multimodálnych dokumentoch (mnoho strán/slidov) je to presne ten typ modelu, ktorý “nezomrie” na tom, že sú grafy, tabuľky a layout.

GLM-4.7

  • Vstup/výstup: text → text

  • Kontext: 200K, maximálny výstup 128K (to je super pri generovaní veľkých patchov, dokumentácie alebo veľkých JSON výstupov).

  • Pre API a migráciu je dôležité:

    • model id býva glm-4.7,

    • pri streamingu a tool-calloch existujú voľby typu stream=true a pri tool streamingu napr. tool_stream=true,

    • sampling defaults sa často uvádzajú ako temperature=1.0 a top_p=0.95 (a typicky sa odporúča doladiť len jedno).

  • Pozor pri lokálnych váhach: niektoré runtime/konfigurácie môžu mať praktické limity kontextu (závisí od implementácie tokenizer/config), takže pri “open-weights” nasadení sa oplatí otestovať svoje maximum na konkrétnom stacku.

GLM-OCR

  • Vstupy: PDF / JPG / PNG

  • Limity (prakticky pre pipeline):

    • veľkosť súborov (PDF a obrázky majú limit v MB),

    • maximálne podporované strany PDF (napr. 100 strán).

  • Výstupy: text / odkazy na obrázky / Markdown dokumenty (a v praxi často štruktúra použiteľná pre ďalšie spracovanie).

  • API štýl: typicky špecializovaný endpoint na layout parsing, kde nastavíš model="glm-ocr" a pošleš súbor/URL.


4) Dostupnosť (ako to používať v praxi)

  • Cloud (Z.ai API):

    • najjednoduchšie, rýchle prototypovanie aj produkcia,

    • vhodné, keď dokumenty nie sú extrémne citlivé alebo máš vyriešené pravidlá spracovania dát.

  • Lokálne / self-hosted (open-weights):

    • výhoda pre citlivé dáta (zmluvy, faktúry, interné PDF),

    • typicky cez inference runtimy ako vLLM/SGLang/Ollama (podľa konkrétneho modelu a podpory).


5) Ceny a licencie (čo si zapamätať)

  • Pri API sa ceny uvádzajú “per 1M tokenov” (input/output a niekedy aj cached input).

  • GLM-OCR býva nacenený veľmi lacno a často symetricky pre input aj output.

  • GLM-4.6V má aj free/“Flash” varianty (vhodné na prototypy alebo lacné spracovanie).

  • GLM-4.7 má okrem API aj “coding plan” balíky (integrované do populárnych coding nástrojov).

  • Open-weights modely (ak ich nasadíš lokálne) sú často pod MIT licenciou – dobré pre komerčné aj interné použitie (stále si však pozri konkrétne podmienky pri konkrétnom repozitári/modeli).


6) Bezpečnosť a súkromie (praktické odporúčania)

  • Ak ide o citlivé dokumenty (faktúry, zmluvy, HR, interné finančné reporty):

    • preferuj lokálne spracovanie (najmä pre OCR),

    • alebo aspoň anonymizuj údaje pred odoslaním do cloudu.

  • Pri extrakcii do JSON/DB:

    • nastav si validáciu schémy (aby sa do databázy nedostali “domyslené” polia),

    • loguj len nevyhnutné minimum (žiadne celé dokumenty v logoch).

  • Pri agent workflows (tool-calling):

    • stanov pravidlá: čo model smie volať, aké URL/domény, aké typy súborov, limity strán a veľkostí.

7) Odporúčané workflow (ako to skladať dokopy)

  • Dokument → štruktúra → analýza

    • Najprv GLM-OCR: vyťažiť text/tabuľky do Markdown/JSON.

    • Potom GLM-4.7: normalizácia, sumarizácia, pravidlá, kontrola konzistencie, generovanie reportu.

  • Screenshot UI → hotový web

    • GLM-4.6V: pixel-štýl replikácia + návrh komponentizácie.

    • GLM-4.7: refaktor, typovanie, testy, build pipeline.

  • Agentic coding (dlhý task)

    • GLM-4.7 s thinking režimom: plán → kroky → patch → testy → finálna kontrola.

8) Prompt šablóny (rýchle použitie)

  • Pre GLM-OCR:

    • „Vyťaž z tohto PDF všetky tabuľky a vráť ich ako JSON podľa schémy … Ak si nie si istý, nechaj null a pridaj notes.“

    • „Preveď manuál do Markdown so zachovanými nadpismi, zoznamami, tabuľkami a vzorcami (LaTeX).“

  • Pre GLM-4.6V:

    • „Podľa screenshotu vygeneruj HTML/CSS/JS. Zopakuj layout, typografiu a spacing. Navrhni komponenty.“

    • „Pozri sa na tieto slidy a sprav z nich stručný report + vyber 5 najdôležitejších grafov a vysvetli ich.“

  • Pre GLM-4.7:

    • „Navrhni plán v krokoch, potom implementuj. Daj dôraz na testy a regresnú kontrolu.“

    • „Refaktoruj modul na čistú architektúru, minimalizuj breaking changes, a vráť patch + migration notes.“