Qwen3: Otvorená rodina modelov od Alibaby
Qwen3 je tretia generácia jazykových modelov tímu Qwen (Alibaba Cloud) — a zároveň moment, keď sa čínske open-weights modely stali plnohodnotnou alternatívou západných uzavretých API. Rodina pokrýva všetko od 0.6B modelu pre notebook až po biliónový hostovaný Qwen3-Max, s jednotnou filozofiou: hybridné „thinking" režimy, agresívne MoE architektúry a licencia Apache 2.0 pre otvorené varianty.
1. Čo je Qwen3 a prečo je dôležitý
Qwen3 vyšiel v apríli 2025 ako kompletná rodina modelov s otvorenými váhami pod Apache 2.0 — teda bez obmedzení na komerčné použitie, fine-tuning či redistribúciu. To z neho urobilo jeden z najpoužívanejších základov pre vlastné nasadenia: beží lokálne cez llama.cpp/vLLM, na vlastných GPU serveroch aj u desiatok API providerov.
Kľúčový posun oproti Qwen2.5: reasoning prestal byť samostatný model a stal sa režimom. Qwen3 zaviedol hybridné „thinking" — ten istý model vie odpovedať okamžite, alebo si pred odpoveďou vygenerovať dlhú úvahovú stopu, keď to úloha vyžaduje.
2. Architektúra rodiny: dense + MoE
Rodina má dve vetvy:
- Dense modely (0.6B, 1.7B, 4B, 8B, 14B, 32B) — klasické husté transformery; menšie bežia aj na spotrebiteľskom hardvéri, 32B je obľúbený „pracant" pre jedno silnejšie GPU.
- MoE modely (Mixture-of-Experts) — vlajkové lode: Qwen3-235B-A22B (235 mld. parametrov celkovo, ~22 mld. aktívnych na token) a Qwen3-30B-A3B (30B/3B). MoE prináša výkon veľkého modelu za inferenčnú cenu malého — 30B-A3B sa stal hitom lokálnej komunity, lebo beží rýchlo aj na bežnom stroji.
Trénovanie prebehlo na ~36 biliónoch tokenov v 119 jazykoch — viacjazyčnosť (vrátane slovenčiny) je citeľne lepšia než u predchodcov.
3. Thinking režimy: od hybridu k špecializácii
Pôvodný Qwen3 mal hybridný režim: prepínanie cez parameter enable_thinking, prípadne značky /think a /no_think priamo v prompte. Model si v thinking režime generuje úvahovú stopu (test-time compute, podobne ako iné reasoning modely) a až potom finálnu odpoveď.
V júli 2025 prišla revízia „2507", ktorá hybrid opustila: ukázalo sa, že oddelené checkpointy sú kvalitnejšie než jeden kompromisný. Odvtedy existujú samostatné varianty Instruct (rýchle odpovede) a Thinking (reasoning), napr. Qwen3-235B-A22B-Instruct-2507 a -Thinking-2507, s natívnym kontextom 262 144 tokenov.
4. Špecializované vetvy a vlajkový Max
- Qwen3-Coder — agentické kódovanie; najväčší variant 480B-A35B MoE, ladený na prácu s nástrojmi a dlhé kódovacie sessiony.
- Qwen3-Next — experimentálna ultra-riedka architektúra (80B-A3B) s hybridnou pozornosťou; ukážka smeru, kde sa aktivuje len zlomok modelu.
- Qwen3-Max — vlajková loď s viac než 1 biliónom parametrov. Na rozdiel od zvyšku rodiny je closed-weight: dostupný len ako hostovaná služba (Qwen Chat, OpenAI-kompatibilné API). Variant Max-Thinking pridáva ťažký reasoning režim s dynamickým navyšovaním výpočtu počas inferencie a adaptívnym volaním nástrojov.
- Multimodálne odnože — Qwen3-VL (obraz), Qwen3-Omni (audio/video) zdieľajú rovnaký základ.
| Variant | Parametre | Váhy | Typické použitie |
|---|---|---|---|
| Qwen3 dense 0.6B–32B | 0.6–32B | open (Apache 2.0) | lokálny beh, fine-tuning |
| Qwen3-30B-A3B | 30B / 3B akt. | open (Apache 2.0) | rýchla lokálna inferencia |
| Qwen3-235B-A22B | 235B / 22B akt. | open (Apache 2.0) | serverové nasadenie, top open výkon |
| Qwen3-Coder | až 480B / 35B akt. | open | agentické kódovanie |
| Qwen3-Max (-Thinking) | >1T | closed, len API | najťažšie úlohy, hostované |
5. Ako si Qwen3 stojí v konkurencii
Otvorený Qwen3-235B sa po vydaní zaradil na špicu open-weights rebríčkov vedľa modelov DeepSeek a Llama; Thinking-2507 varianty konkurovali vtedajším uzavretým reasoning modelom v matematike a kóde. Proti aktuálnej frontier triede (Claude Opus 4.8, Claude Fable 5) Qwen3 zaostáva v najťažšom reasoningu a dlhej agentickej práci — jeho sila je pomer výkon/cena a plná kontrola nad nasadením, nie absolútna špička.
Pre praktickú voľbu: citlivé dáta a vysoký objem → open Qwen3 na vlastnom železe; maximálna kvalita úsudku → frontier API. Nástupcom rodiny je Qwen 3.5, ktorý na tieto základy nadviazal.
6. Na čo si dať pozor
- Verzionovací chaos: „Qwen3" označuje pôvodné aj 2507 checkpointy s odlišným správaním (hybrid vs. oddelené varianty) — pri nasadení vždy pinujte presný checkpoint.
- Max ≠ open: marketing rodiny sa vezie na „open-source" vlne, ale vlajkový Max je uzavretý; open je zvyšok rodiny.
- Thinking stojí tokeny: úvahová stopa sa účtuje ako output — pri API použití môže reasoning niekoľkonásobne predražiť odpoveď.
- Bezpečnostné mantinely: open-weights model preberáte bez hostovanej moderácie; filtre, audit a ochranu pred prompt injection si staviate sami.
Zhrnutie
- Qwen3 = kompletná rodina od 0.6B po >1T: open dense + MoE modely pod Apache 2.0, uzavretý hostovaný Max.
- Zaviedol hybridné thinking režimy; revízia 2507 ich rozdelila na samostatné Instruct/Thinking varianty s 262k kontextom.
- Špecializované vetvy: Qwen3-Coder (agentické kódovanie), Qwen3-Next (ultra-riedke MoE), VL/Omni (multimodalita).
- Sila: pomer výkon/cena a vlastné nasadenie; frontier API zostávajú vpredu v najťažšom reasoningu. Pokračovanie: Qwen 3.5.