LLM Routing: Inteligentné smerovanie dotazov medzi AI modelmi

LLM Routing je technika, ktorá dynamicky rozhoduje, ktorý jazykový model vybaví konkrétny dotaz — výsledkom je dramatická úspora nákladov bez viditeľného poklesu kvality. V ére desiatok konkurujúcich modelov sa z routingu stáva kritická infraštruktúra každej produkčnej AI aplikácie.


1. Čo je LLM Routing a prečo vznikol

Keď vývojár spustí AI aplikáciu, väčšina dotazov je triviálna: „Preložte túto vetu," „Zhrňte tento odstavec," „Odpovedzte na FAQ." Tieto úlohy zvláda lacný malý model rovnako dobre ako frontier gigant. Napriek tomu mnohé aplikácie posielajú každý dotaz na ten najdrahší dostupný model — len pre istotu.

LLM Routing rieši práve tento plýtvanie. Je to vrstva logiky medzi aplikáciou a modelmi, ktorá pre každý prichádzajúci dotaz rozhodne:

  • Ktorý model je dostatočne dobrý pre túto konkrétnu úlohu?
  • Aká je požadovaná latencia — chce používateľ odpoveď okamžite, alebo môže počkať?
  • Aký je kontext — ide o jednoduchú otázku, alebo komplexné viacstupňové uvažovanie?

Výsledkom je portfóliový prístup k modelom: lacné modely vybavujú rutinné dotazy, drahé modely nastupujú len tam, kde skutočne pridávajú hodnotu.


2. Ako LLM Routing funguje — tri hlavné stratégie

a) Pravidlové smerovanie (Rule-based routing)

Najjednoduchší prístup. Vývojár explicitne definuje pravidlá:

  • Dotazy kratšie ako 50 tokenov → Haiku 4.5
  • Dotazy obsahujúce kód → Sonnet 5
  • Dotazy označené ako „kritické" → Opus 4.8

Výhoda: predvídateľné správanie, nulová overhead latencia. Nevýhoda: pravidlá sa ľahko stanú zastaranými a nepokryjú hraniční prípady.

b) Klasifikátorové smerovanie (Classifier-based routing)

Malý, rýchly klasifikačný model (alebo dokonca jednoduchý embedding + cosine similarity) odhadne náročnosť dotazu ešte pred jeho odoslaním. Ak je skóre nízke, pošle dotaz na lacný model; ak je vysoké, eskaluje na silnejší.

Tento prístup používa napríklad RouteLLM od LMSys — open-source framework trénovaný na preferenčných dátach z Chatbot Areny. Ich výsledky ukázali, že správnou kombináciou GPT-4o a GPT-4o-mini možno ušetriť 40–60 % nákladov pri zachovaní 95 % pôvodnej kvality.

c) Kaskádové smerovanie (Cascading / fallback routing)

Dotaz sa najprv odošle lacnému modelu. Ak odpoveď nesplní definované kritériá kvality (istota, dlžka, kľúčové slová), systém dotaz automaticky eskaluje na silnejší model. Táto stratégia je pomalšia, ale adaptívna — kvalitu si overuje na reálnych výstupoch, nie len na odhadoch.


3. Porovnanie nástrojov pre LLM Routing

Nástroj Typ routingu Open-source Samohodnotenie kvality Typické použitie
RouteLLM Klasifikátor + kaskáda Áno Nie Výskum, vlastné nasadenie
LiteLLM Pravidlové + load balancing Áno Nie Proxy vrstva, API agregácia
OpenRouter Pravidlové + cenová optimalizácia Nie (SaaS) Čiastočne Rýchly štart, managed routing
Martian Klasifikátor (proprietárny) Nie Áno Podniky, cost reporting
Portkey AI Pravidlové + observabilita Čiastočne Áno Produkcia, audit trails
Not Diamond ML klasifikátor per úloha Nie Áno Multitask aplikácie

Poznámka: K júlu 2026 sa väčšina týchto nástrojov integrovala do širších AI gateway platforiem — výber závisí od toho, či potrebujete managed riešenie alebo plnú kontrolu nad infra.


4. Praktické použitie — ako implementovať routing v produkčnej aplikácii

Scenár: zákaznícka podpora s tisíckami dotazov denne

Typická distribúcia dotazov v support chatbote:

  • ~60 % sú jednoduché FAQ (cena, dostupnosť, sledovanie objednávky) → postačí Haiku 4.5
  • ~30 % vyžaduje kontext z histórie a miernu inferenciu → Sonnet 5
  • ~10 % je komplexných reklamácií alebo technických problémov → Opus 4.8 alebo Gemini 3 Pro

S routingom na základe klasifikátora trénovateľného na vlastných dátach možno dosiahnuť úsporu 50–70 % API nákladov. Pri 1 milióne dotazov mesačne to môže znamenať rozdiel medzi 3 000 € a 9 000 € mesačne.

Implementačný vzor s LiteLLM:

from litellm import Router

router = Router(
    model_list=[
        {"model_name": "fast", "litellm_params": {"model": "claude-haiku-4-5-20251001"}},
        {"model_name": "smart", "litellm_params": {"model": "claude-sonnet-5"}},
        {"model_name": "powerful", "litellm_params": {"model": "claude-opus-4-8"}},
    ],
    routing_strategy="cost-based-routing"
)

response = router.completion(
    model="smart",
    messages=[{"role": "user", "content": user_query}]
)

Dôležité: dobrý routing systém loguje každé rozhodnutie. Bez observability nevieme, či klasifikátor robí správne voľby — ani to, kedy ho treba preučiť.


5. Limity, riziká a čo ďalej

Nekonzistentnosť výstupov Rôzne modely majú rôzny štýl, formát a „osobnosť". Ak routing prechádza medzi modelmi, používatelia môžu vnímať nekonzistentné odpovede v rovnakom produkte. Riešením je normalizačná vrstva alebo system prompt dizajnovaný tak, aby minimalizoval rozdiely.

Chybná klasifikácia Žiadny klasifikátor nie je dokonalý. Zložitý dotaz smerovaný na slabý model vygeneruje zlú odpoveď, ktorú aplikácia nemusí detekovať. Kaskádový routing tento problém čiastočne rieši, ale za cenu latency.

Latencia klasifikátora Každý routing krok pridáva latency — aj keď len 10–50 ms. V real-time aplikáciách (hlasové rozhrania, live coding asistenti) môže byť tento overhead neprijateľný.

Vendor lock-in pri managed riešeniach Platformy ako OpenRouter alebo Martian abstrahujú komplexnosť, ale vytvárajú závislosť. Ak zmenia cenník alebo zmiznú z trhu, migrácia je bolestivá.

Budúcnosť: semantický routing Ďalší krok za klasifikátorom je semantický routing — systém, ktorý rozumieniu obsahu dotazu (nielen jeho náročnosti) a smeruje ho na model špecializovaný pre danú doménu: medicínsky model pre zdravotné otázky, kódovací model pre technické problémy, lacný generický model pre zvyšok.


Zhrnutie: LLM Routing transformuje portfólio modelov z manuálnej voľby na dynamickú infraštruktúru, ktorá automaticky balancuje kvalitu a náklady. Pre každú produkčnú AI aplikáciu s väčším objemom dotazov je routing nie voliteľnou optimalizáciou, ale nevyhnutnou vrstvou architektúry.