Context Window (kontextové okno)

Context Window je limit, koľko textu (tvojich správ, systémových inštrukcií, priložených dát aj predchádzajúcej konverzácie) dokáže AI naraz „držať v hlave“ pri generovaní odpovede. Keď ho prekročíš, niečo sa musí zahodiť alebo skrátiť — a ty to potom vidíš ako zabúdanie, halucinácie alebo zrazu menej presné odpovede.


1. Definícia

  • Kontextové okno: maximálny objem vstupného textu, ktorý model zohľadňuje v jednom behu.

  • Tokeny: kontext sa meria v tokenoch (nie v slovách). Token je kúsok textu — niekedy celé slovo, inokedy len jeho časť.

  • Analógia: predstav si pracovný stôl. Kým je na ňom poriadok, vidíš všetko dôležité. Keď ho zavalíš papiermi, začneš prehliadať detaily alebo ich musíš odložiť do šuflíka (ktorý sa do aktuálnej práce už nezapočíta).


2. Ako to funguje a prečo k tomu dochádza

  • Jednorazové „počítanie“ kontextu: pri odpovedi model spracuje celý dostupný kontext naraz. Nejde o nekonečnú pamäť, ale o limitovaný „buffer“.

  • Vstup + výstup: do limitov často spadá nielen to, čo posielaš ty, ale aj to, čo model má ešte vygenerovať (závisí od systému a nastavení).

  • Truncation (odrezanie): keď konverzácia narastie, staršie časti môžu byť automaticky odrezané. Ty to nevidíš priamo — len cítiš, že model „už nevie, čo ste riešili“.

  • „Dlhý kontext“ nie je magický: aj keď sa do okna zmestí veľa textu, model nemusí rovnako dobre využívať každý detail. V praxi sa často prejaví, že dôležité informácie sa „rozriedia“ v šume.


3. Hlavné prejavy v praxi (čo si všimneš)

  • Zabúdanie požiadaviek: model prestane dodržiavať pravidlá, ktoré boli uvedené skôr (napr. štýl, formát, zákaz tabuliek).

  • Strata faktov: neudrží si mená, čísla, špecifické rozhodnutia alebo „kto čo povedal“ v dlhšej debate.

  • Zlá kontinuita: odpoveď pôsobí, akoby pokračovala v inom vlákne, alebo si odporuje s tým, čo platilo predtým.

  • Halucinácie pri preťažení: keď je veľa textu a málo jasných kotiev (kľúčové body), model môže „doplniť“ chýbajúce súvislosti.

  • Zhoršenie presnosti pri detailoch: pri veľkých dokumentoch sa ľahko pomýli v konkrétnom odseku, dátume, verzii alebo výnimke v pravidlách.


4. Prečo je to dôležité (riziká, dôsledky, prínos)

  • Kvalita odpovede: veľká časť „AI chýb“ nie je o inteligencii, ale o tom, že model nemal v kontexte správne informácie — alebo ich mal priveľa a nevedel, čo je dôležité.

  • Cena a latencia: väčší kontext typicky znamená viac výpočtu, vyššiu cenu (pri API) a pomalšiu odozvu.

  • Bezpečnosť: ak do kontextu dáš citlivé dáta „len aby to bolo kompletné“, zvyšuješ riziko, že ich budeš zdieľať zbytočne alebo v nesprávnom systéme.

  • Praktický prínos: väčšie okno je super, keď potrebuješ pracovať s dlhým dokumentom, špecifikáciou, kódom alebo výskumnými poznámkami — ale len vtedy, keď vieš udržať štruktúru.


5. Ako sa to „meria“ a ako to riešiť

  • Počítaj s tokenmi, nie so stranami: jedna A4 môže mať veľmi rôzny počet tokenov podľa hustoty textu, tabuliek, kódu a jazyka.

  • Udržuj „brief“ konverzácie: na začiatku alebo priebežne si pýtaj krátke zhrnutie, ktoré potom používaš ako hlavný kontext.

  • Segmentuj (chunking): veľké dokumenty dávaj po častiach a ku každej si nechaj urobiť výťah. Následne pracuj už len s výťahmi.

  • Hierarchické sumarizovanie: keď máš 10 kapitol, najprv sprav 10 stručných zhrnutí, potom „zhrnutie zhrnutí“.

  • Retrieval / RAG: namiesto toho, aby si do okna tlačil celý archív, vytiahni iba relevantné pasáže podľa otázky.

  • Jednoznačné kotvy: používaj názvy sekcií, identifikátory, odrážky, „zdroj pravdy“ (napr. „Toto je finálna verzia požiadaviek“) — model sa potom ľahšie orientuje.

Malá orientačná pomôcka (aby sa ti nemiešali pojmy):

Pojem Čo to znamená v praxi
Context Window Koľko textu model naraz zohľadní pri odpovedi
Output limit Koľko textu dokáže naraz vygenerovať
Pamäť systému Čo si aplikácia dlhodobo „ukladá“ mimo kontextu (ak vôbec)
RAG / vyhľadávanie Mechanizmus, ktorý do kontextu vloží len relevantné úryvky

6. Quick Reference (voliteľné)

  • Čo to je: limit kontextu v tokenoch, ktorý model pri odpovedi vidí.

  • Prečo to bolí: po prekročení limitu sa staršie veci odrežú alebo sa stratia v šume.

  • Čo sledovať: nedodržiavanie pravidiel, zabúdanie detailov, horšia kontinuita.

  • Čo pomáha: priebežné zhrnutia, chunking, jasné kotvy, RAG.

  • Kedy riešiť hneď: pri dlhých projektoch, špecifikáciách, právnych textoch, veľkých kódoch a dlhých chat vláknach.


Zhrnutie

  • Context Window určuje, koľko informácií má model reálne k dispozícii pri odpovedi — nie je to nekonečná pamäť.

  • Keď kontext narastie, typicky sa prejaví zabúdanie, slabšia kontinuita a viac omylov v detailoch.

  • Najlepšie funguje, keď si s kontextom pracuješ vedome: zhrnutia, segmentácia, hierarchické výťahy a RAG.

  • Väčšie okno je výhoda, ale samo o sebe nezaručí kvalitu — rozhoduje, či je kontext čistý, štruktúrovaný a relevantný.