Qwen3: Otvorená rodina modelov od Alibaby

Qwen3 je tretia generácia jazykových modelov tímu Qwen (Alibaba Cloud) — a zároveň moment, keď sa čínske open-weights modely stali plnohodnotnou alternatívou západných uzavretých API. Rodina pokrýva všetko od 0.6B modelu pre notebook až po biliónový hostovaný Qwen3-Max, s jednotnou filozofiou: hybridné „thinking" režimy, agresívne MoE architektúry a licencia Apache 2.0 pre otvorené varianty.


1. Čo je Qwen3 a prečo je dôležitý

Qwen3 vyšiel v apríli 2025 ako kompletná rodina modelov s otvorenými váhami pod Apache 2.0 — teda bez obmedzení na komerčné použitie, fine-tuning či redistribúciu. To z neho urobilo jeden z najpoužívanejších základov pre vlastné nasadenia: beží lokálne cez llama.cpp/vLLM, na vlastných GPU serveroch aj u desiatok API providerov.

Kľúčový posun oproti Qwen2.5: reasoning prestal byť samostatný model a stal sa režimom. Qwen3 zaviedol hybridné „thinking" — ten istý model vie odpovedať okamžite, alebo si pred odpoveďou vygenerovať dlhú úvahovú stopu, keď to úloha vyžaduje.

2. Architektúra rodiny: dense + MoE

Rodina má dve vetvy:

  • Dense modely (0.6B, 1.7B, 4B, 8B, 14B, 32B) — klasické husté transformery; menšie bežia aj na spotrebiteľskom hardvéri, 32B je obľúbený „pracant" pre jedno silnejšie GPU.
  • MoE modely (Mixture-of-Experts) — vlajkové lode: Qwen3-235B-A22B (235 mld. parametrov celkovo, ~22 mld. aktívnych na token) a Qwen3-30B-A3B (30B/3B). MoE prináša výkon veľkého modelu za inferenčnú cenu malého — 30B-A3B sa stal hitom lokálnej komunity, lebo beží rýchlo aj na bežnom stroji.

Trénovanie prebehlo na ~36 biliónoch tokenov v 119 jazykoch — viacjazyčnosť (vrátane slovenčiny) je citeľne lepšia než u predchodcov.

3. Thinking režimy: od hybridu k špecializácii

Pôvodný Qwen3 mal hybridný režim: prepínanie cez parameter enable_thinking, prípadne značky /think a /no_think priamo v prompte. Model si v thinking režime generuje úvahovú stopu (test-time compute, podobne ako iné reasoning modely) a až potom finálnu odpoveď.

V júli 2025 prišla revízia „2507", ktorá hybrid opustila: ukázalo sa, že oddelené checkpointy sú kvalitnejšie než jeden kompromisný. Odvtedy existujú samostatné varianty Instruct (rýchle odpovede) a Thinking (reasoning), napr. Qwen3-235B-A22B-Instruct-2507 a -Thinking-2507, s natívnym kontextom 262 144 tokenov.

4. Špecializované vetvy a vlajkový Max

  • Qwen3-Coder — agentické kódovanie; najväčší variant 480B-A35B MoE, ladený na prácu s nástrojmi a dlhé kódovacie sessiony.
  • Qwen3-Next — experimentálna ultra-riedka architektúra (80B-A3B) s hybridnou pozornosťou; ukážka smeru, kde sa aktivuje len zlomok modelu.
  • Qwen3-Max — vlajková loď s viac než 1 biliónom parametrov. Na rozdiel od zvyšku rodiny je closed-weight: dostupný len ako hostovaná služba (Qwen Chat, OpenAI-kompatibilné API). Variant Max-Thinking pridáva ťažký reasoning režim s dynamickým navyšovaním výpočtu počas inferencie a adaptívnym volaním nástrojov.
  • Multimodálne odnože — Qwen3-VL (obraz), Qwen3-Omni (audio/video) zdieľajú rovnaký základ.
Variant Parametre Váhy Typické použitie
Qwen3 dense 0.6B–32B 0.6–32B open (Apache 2.0) lokálny beh, fine-tuning
Qwen3-30B-A3B 30B / 3B akt. open (Apache 2.0) rýchla lokálna inferencia
Qwen3-235B-A22B 235B / 22B akt. open (Apache 2.0) serverové nasadenie, top open výkon
Qwen3-Coder až 480B / 35B akt. open agentické kódovanie
Qwen3-Max (-Thinking) >1T closed, len API najťažšie úlohy, hostované

5. Ako si Qwen3 stojí v konkurencii

Otvorený Qwen3-235B sa po vydaní zaradil na špicu open-weights rebríčkov vedľa modelov DeepSeek a Llama; Thinking-2507 varianty konkurovali vtedajším uzavretým reasoning modelom v matematike a kóde. Proti aktuálnej frontier triede (Claude Opus 4.8, Claude Fable 5) Qwen3 zaostáva v najťažšom reasoningu a dlhej agentickej práci — jeho sila je pomer výkon/cena a plná kontrola nad nasadením, nie absolútna špička.

Pre praktickú voľbu: citlivé dáta a vysoký objem → open Qwen3 na vlastnom železe; maximálna kvalita úsudku → frontier API. Nástupcom rodiny je Qwen 3.5, ktorý na tieto základy nadviazal.

6. Na čo si dať pozor

  • Verzionovací chaos: „Qwen3" označuje pôvodné aj 2507 checkpointy s odlišným správaním (hybrid vs. oddelené varianty) — pri nasadení vždy pinujte presný checkpoint.
  • Max ≠ open: marketing rodiny sa vezie na „open-source" vlne, ale vlajkový Max je uzavretý; open je zvyšok rodiny.
  • Thinking stojí tokeny: úvahová stopa sa účtuje ako output — pri API použití môže reasoning niekoľkonásobne predražiť odpoveď.
  • Bezpečnostné mantinely: open-weights model preberáte bez hostovanej moderácie; filtre, audit a ochranu pred prompt injection si staviate sami.

Zhrnutie

  • Qwen3 = kompletná rodina od 0.6B po >1T: open dense + MoE modely pod Apache 2.0, uzavretý hostovaný Max.
  • Zaviedol hybridné thinking režimy; revízia 2507 ich rozdelila na samostatné Instruct/Thinking varianty s 262k kontextom.
  • Špecializované vetvy: Qwen3-Coder (agentické kódovanie), Qwen3-Next (ultra-riedke MoE), VL/Omni (multimodalita).
  • Sila: pomer výkon/cena a vlastné nasadenie; frontier API zostávajú vpredu v najťažšom reasoningu. Pokračovanie: Qwen 3.5.