GraphRAG: Znalostné grafy pre hlbšie porozumenie kontextu
GraphRAG je technika od Microsoft Research, ktorá rozširuje klasický RAG o explicitné znalostné grafy — umožňuje AI odpovedať nie len na faktické otázky o konkrétnom odseku, ale na analytické otázky naprieč celým korpusom dokumentov.
1. Problém, ktorý GraphRAG rieši
Klasický RAG (Retrieval-Augmented Generation) funguje jednoducho: text sa rozseká na chunky, z každého sa vytvorí vektorový embedding a pri otázke sa nájdu najbližšie chunky. Tento prístup je rýchly a lacný — ale má slepé miesto.
Predstav si firemný knowledge base s tisícami dokumentov. Otázka „Aké záväzky máme voči európskym partnerom?" si vyžaduje syntézu naprieč desiatkami zmlúv. Vektorové vyhľadávanie vráti päť najpodobnejších odsekov — nie odpoveď na tematickú otázku. Tento typ dopytu sa volá global query a klasický RAG na neho jednoducho nestačí.
GraphRAG túto slabinu rieši štrukturálne: z dokumentov extrahuje entity a vzťahy, organizuje ich do grafu a pri globálnych otázkach pracuje so sumarizáciami tematických komunít v grafe — nie len s jednotlivými fragmentmi.
2. Ako GraphRAG funguje
Pipeline má dve oddelené fázy.
Fáza 1 — Indexovanie (offline, jednorazové):
- LLM prechádza každý textový chunk a extrahuje entity (osoby, organizácie, pojmy, udalosti) a vzťahy medzi nimi
- Vzniká property graph — uzly sú entity, hrany sú pomenované vzťahy s popismi
- Algoritmus Leiden detekuje komunity (klastre tematicky blízkych entít)
- Pre každú komunitu LLM vygeneruje sumarizačné správy na viacerých úrovniach granularity — vzniká hierarchický strom znalostí
Fáza 2 — Dotazovanie (online):
GraphRAG ponúka dva režimy hľadania:
- Local search — kombinuje vektorové hľadanie s kontextom grafu okolo nájdených entít. Vhodné pre faktické otázky o konkrétnej entite: „Kto je generálny riaditeľ firmy X?"
- Global search — paralelne vyhodnotí sumarizačné správy komunít, zoradí a zlúči čiastkové odpovede do finálnej syntézy. Vhodné pre tematické otázky: „Aké sú hlavné trendy v týchto dokumentoch?"
Kľúčový rozdiel oproti klasickému RAG: ten nevie, že „Apple" v jednom dokumente a „Tim Cook" v druhom spolu súvisia. GraphRAG túto väzbu uloží do grafu a pri odpovedi s ňou aktívne pracuje.
3. Porovnanie: Klasický RAG vs. GraphRAG
| Vlastnosť | Klasický RAG | GraphRAG |
|---|---|---|
| Reprezentácia znalostí | Vektorové embeddingy | Property graph + vektory |
| Rýchlosť indexovania | Rýchle | Pomalé (stovky LLM volaní) |
| Lokálne otázky (fakty) | Silný | Silný |
| Globálne otázky (analýza) | Slabý | Silný |
| Náklady offline | Nízke | Vysoké |
| Náklady online | Nízke | Stredné–vysoké |
| Transparentnosť | Nízka | Vysoká (graf je čitateľný) |
| Riziko halucinácie | Stredné | Nižšie pri globálnych otázkach |
| Ideálne pre | Jednoduchý Q&A | Analytika nad veľkými korpusmi |
4. Praktické použitie a implementácia
Právna a zmluvná analýza: Stovky zmlúv v knowledge base. GraphRAG odpovie na „Aké penalizačné klauzuly máme s dodávateľmi z Nemecka?" syntézou naprieč celou databázou — nie len jednou nájdenou zmluvou.
Výskum a due diligence: Analýza tisícok vedeckých článkov. Otázka „Aké sú dominantné prístupy k liečbe X?" vyžaduje globálny pohľad, nie top-5 podobných odsekov.
Interný knowledge management: Firemné wiki, e-maily, tickety — GraphRAG prepojí, že projektový manažér Jana a zákazník Telekom spolu súvisia cez projekt z Q3, aj keď to nie je nikde explicitne napísané na jednom mieste.
Agentic AI: Agenti môžu traversovať graf ako nástroj — namiesto sémantického vyhľadávania explicitne „prechádzajú" vzťahmi v grafe a sledujú reťazce závislostí.
Microsoft vydal GraphRAG ako open-source Python balík s priamou integráciou do Azure AI Foundry. Ekosystém rýchlo rástol:
pip install graphrag
python -m graphrag init --root ./projekt
python -m graphrag index --root ./projekt
python -m graphrag query --root ./projekt \
--method global "Aké sú hlavné témy v dokumentoch?"
Alternatívy pre rôzne potreby:
nano-graphrag— odľahčená verzia, vhodná na lokálne experimentyLightRAG— hybridný prístup kombinujúci graph a vector search v jednom krokuFast-GraphRAG— streamovaná extrakcia, nižšie náklady pri väčších korpusoch
5. Limity, riziká a smer vývoja
Náklady na indexovanie sú reálna bariéra. Extrakcia grafu z 1 000 dokumentov môže vyžadovať tisíce LLM volaní a stáť desiatky dolárov pri použití frontier modelu. Praktické riešenie: lacnejší model (Haiku, Flash) pre extrakciu entít, silnejší model len pre záverečnú sumarizáciu komunít.
Kvalita grafu závisí od kvality extrakcie. Doménovo špecifické texty — medicína, právo, financie — vyžadujú starostlivo navrhnuté systémové prompty, inak LLM extrahuje entít príliš málo alebo nesprávne kategorizuje vzťahy.
Statický graf je problém pri meniacich sa dátach. Pridanie nových dokumentov znamená čiastočné re-indexovanie. Inkrementálne aktualizácie grafu v reálnom čase sú zatiaľ vo výskumnej fáze — produkčné nasadenia musia počítať s plánovanými re-indexovacími oknami.
Overkill pre jednoduché use-cases. Ak potrebuješ len „nájdi podobný odsek", klasický RAG je rýchlejší, lacnejší a jednoduchší. GraphRAG sa oplatí až vtedy, keď analýza naprieč celým korpusom tvorí podstatnú časť dopytu.
Smer vývoja v roku 2026: Hybridné architektúry — graph + vector + full-text — sa stávajú de facto štandardom pre enterprise RAG. Microsoft integroval GraphRAG priamo do Azure AI Foundry ako spravovanú službu. Výskum smeruje k lazy indexovaniu (graf sa buduje inkrementálne len pre dokumenty relevantné k aktuálnemu dopytu) a k automatickej aktualizácii grafov pri príchode nových dokumentov bez nutnosti plného re-indexovania.
Zhrnutie: GraphRAG prekonáva kľúčový limit vektorového RAG tým, že z dokumentov extrahuje explicitné znalostné grafy — vďaka tomu dokáže zmysluplne odpovedať na analytické otázky, ktoré vyžadujú syntézu naprieč celým korpusom, nie len lokálne vyhľadanie najbližšieho fragmentu. Pre produkčné nasadenia s analytickými požiadavkami ide o techniku, ktorú stojí za to vyhodnodiť pred ďalším rozširovaním klasického RAG pipeline.