GraphRAG: Znalostné grafy pre hlbšie porozumenie kontextu

GraphRAG je technika od Microsoft Research, ktorá rozširuje klasický RAG o explicitné znalostné grafy — umožňuje AI odpovedať nie len na faktické otázky o konkrétnom odseku, ale na analytické otázky naprieč celým korpusom dokumentov.


1. Problém, ktorý GraphRAG rieši

Klasický RAG (Retrieval-Augmented Generation) funguje jednoducho: text sa rozseká na chunky, z každého sa vytvorí vektorový embedding a pri otázke sa nájdu najbližšie chunky. Tento prístup je rýchly a lacný — ale má slepé miesto.

Predstav si firemný knowledge base s tisícami dokumentov. Otázka „Aké záväzky máme voči európskym partnerom?" si vyžaduje syntézu naprieč desiatkami zmlúv. Vektorové vyhľadávanie vráti päť najpodobnejších odsekov — nie odpoveď na tematickú otázku. Tento typ dopytu sa volá global query a klasický RAG na neho jednoducho nestačí.

GraphRAG túto slabinu rieši štrukturálne: z dokumentov extrahuje entity a vzťahy, organizuje ich do grafu a pri globálnych otázkach pracuje so sumarizáciami tematických komunít v grafe — nie len s jednotlivými fragmentmi.


2. Ako GraphRAG funguje

Pipeline má dve oddelené fázy.

Fáza 1 — Indexovanie (offline, jednorazové):

  • LLM prechádza každý textový chunk a extrahuje entity (osoby, organizácie, pojmy, udalosti) a vzťahy medzi nimi
  • Vzniká property graph — uzly sú entity, hrany sú pomenované vzťahy s popismi
  • Algoritmus Leiden detekuje komunity (klastre tematicky blízkych entít)
  • Pre každú komunitu LLM vygeneruje sumarizačné správy na viacerých úrovniach granularity — vzniká hierarchický strom znalostí

Fáza 2 — Dotazovanie (online):

GraphRAG ponúka dva režimy hľadania:

  • Local search — kombinuje vektorové hľadanie s kontextom grafu okolo nájdených entít. Vhodné pre faktické otázky o konkrétnej entite: „Kto je generálny riaditeľ firmy X?"
  • Global search — paralelne vyhodnotí sumarizačné správy komunít, zoradí a zlúči čiastkové odpovede do finálnej syntézy. Vhodné pre tematické otázky: „Aké sú hlavné trendy v týchto dokumentoch?"

Kľúčový rozdiel oproti klasickému RAG: ten nevie, že „Apple" v jednom dokumente a „Tim Cook" v druhom spolu súvisia. GraphRAG túto väzbu uloží do grafu a pri odpovedi s ňou aktívne pracuje.


3. Porovnanie: Klasický RAG vs. GraphRAG

Vlastnosť Klasický RAG GraphRAG
Reprezentácia znalostí Vektorové embeddingy Property graph + vektory
Rýchlosť indexovania Rýchle Pomalé (stovky LLM volaní)
Lokálne otázky (fakty) Silný Silný
Globálne otázky (analýza) Slabý Silný
Náklady offline Nízke Vysoké
Náklady online Nízke Stredné–vysoké
Transparentnosť Nízka Vysoká (graf je čitateľný)
Riziko halucinácie Stredné Nižšie pri globálnych otázkach
Ideálne pre Jednoduchý Q&A Analytika nad veľkými korpusmi

4. Praktické použitie a implementácia

Právna a zmluvná analýza: Stovky zmlúv v knowledge base. GraphRAG odpovie na „Aké penalizačné klauzuly máme s dodávateľmi z Nemecka?" syntézou naprieč celou databázou — nie len jednou nájdenou zmluvou.

Výskum a due diligence: Analýza tisícok vedeckých článkov. Otázka „Aké sú dominantné prístupy k liečbe X?" vyžaduje globálny pohľad, nie top-5 podobných odsekov.

Interný knowledge management: Firemné wiki, e-maily, tickety — GraphRAG prepojí, že projektový manažér Jana a zákazník Telekom spolu súvisia cez projekt z Q3, aj keď to nie je nikde explicitne napísané na jednom mieste.

Agentic AI: Agenti môžu traversovať graf ako nástroj — namiesto sémantického vyhľadávania explicitne „prechádzajú" vzťahmi v grafe a sledujú reťazce závislostí.

Microsoft vydal GraphRAG ako open-source Python balík s priamou integráciou do Azure AI Foundry. Ekosystém rýchlo rástol:

pip install graphrag
python -m graphrag init --root ./projekt
python -m graphrag index --root ./projekt
python -m graphrag query --root ./projekt \
  --method global "Aké sú hlavné témy v dokumentoch?"

Alternatívy pre rôzne potreby:

  • nano-graphrag — odľahčená verzia, vhodná na lokálne experimenty
  • LightRAG — hybridný prístup kombinujúci graph a vector search v jednom kroku
  • Fast-GraphRAG — streamovaná extrakcia, nižšie náklady pri väčších korpusoch

5. Limity, riziká a smer vývoja

Náklady na indexovanie sú reálna bariéra. Extrakcia grafu z 1 000 dokumentov môže vyžadovať tisíce LLM volaní a stáť desiatky dolárov pri použití frontier modelu. Praktické riešenie: lacnejší model (Haiku, Flash) pre extrakciu entít, silnejší model len pre záverečnú sumarizáciu komunít.

Kvalita grafu závisí od kvality extrakcie. Doménovo špecifické texty — medicína, právo, financie — vyžadujú starostlivo navrhnuté systémové prompty, inak LLM extrahuje entít príliš málo alebo nesprávne kategorizuje vzťahy.

Statický graf je problém pri meniacich sa dátach. Pridanie nových dokumentov znamená čiastočné re-indexovanie. Inkrementálne aktualizácie grafu v reálnom čase sú zatiaľ vo výskumnej fáze — produkčné nasadenia musia počítať s plánovanými re-indexovacími oknami.

Overkill pre jednoduché use-cases. Ak potrebuješ len „nájdi podobný odsek", klasický RAG je rýchlejší, lacnejší a jednoduchší. GraphRAG sa oplatí až vtedy, keď analýza naprieč celým korpusom tvorí podstatnú časť dopytu.

Smer vývoja v roku 2026: Hybridné architektúry — graph + vector + full-text — sa stávajú de facto štandardom pre enterprise RAG. Microsoft integroval GraphRAG priamo do Azure AI Foundry ako spravovanú službu. Výskum smeruje k lazy indexovaniu (graf sa buduje inkrementálne len pre dokumenty relevantné k aktuálnemu dopytu) a k automatickej aktualizácii grafov pri príchode nových dokumentov bez nutnosti plného re-indexovania.


Zhrnutie: GraphRAG prekonáva kľúčový limit vektorového RAG tým, že z dokumentov extrahuje explicitné znalostné grafy — vďaka tomu dokáže zmysluplne odpovedať na analytické otázky, ktoré vyžadujú syntézu naprieč celým korpusom, nie len lokálne vyhľadanie najbližšieho fragmentu. Pre produkčné nasadenia s analytickými požiadavkami ide o techniku, ktorú stojí za to vyhodnodiť pred ďalším rozširovaním klasického RAG pipeline.