Qwen3 Coder
Qwen3 Coder je špecializovaná rodina open-weight jazykových modelov od Qwen / Alibaba Cloud zameraná výlučne na softvérové inžinierstvo a agentné kódovanie. Rodina sa odčlenila od všeobecnej Qwen3 a Qwen 3.5 línie v apríli 2026 ako odpoveď na rastúcu konkurenciu medzi coding-špecializovanými modelmi (DeepSeek-Coder V3, Codestral 2, Claude Sonnet 4.6, GPT-5.3-Codex). K dátumu tohto článku (máj 2026) je Qwen3-Coder-480B-A35B najsilnejším open-weight coding modelom podľa väčšiny verejných benchmarkov.
1. Čo je Qwen3 Coder a ako sa líši od Qwen 3.5
Qwen 3.5 (vydaný február–marec 2026) je všeobecná multimodálna rodina. Qwen3 Coder je oproti tomu:
- úzko špecializovaný — tréning sa sústredil na cca 7,5 bilióna code-heavy tokenov (oproti ~2 bilióna v Qwen 3.5), výrazne menej multilingual/text dát
- agent-first design — natívne natrénovaný na multi-turn tool use, file editing a long-horizon coding úlohy (nie iba single-shot completion)
- dlhý kontext bez kompromisu — 256K natívnych tokenov, rozšíriteľné na 1M cez YaRN scaling
- fill-in-the-middle (FIM) ako prvotriedna úloha — model je explicitne ladený na editing existujúceho kódu, nie len na append
Rodina je distribuovaná pod licenciou Apache 2.0 (rovnako ako väčšina Qwen 3.5 modelov).
2. Veľkosti a varianty (k máju 2026)
| Variant | Aktívne / celkové parametre | Context | Cieľová use case |
|---|---|---|---|
| Qwen3-Coder-7B | 7B dense | 256K | edge / IDE plugin / lokálny copilot |
| Qwen3-Coder-14B | 14B dense | 256K | jeden GPU (A100/H100), praktický baseline |
| Qwen3-Coder-32B | 32B dense | 256K | silný open-weight coder pre jeden uzol |
| Qwen3-Coder-30B-A3B | 3B aktívne / 30B MoE | 256K | rýchla inference, malá pamäť |
| Qwen3-Coder-480B-A35B | 35B aktívne / 480B MoE | 256K (1M cez YaRN) | flagship — porovnateľný s closed-source |
Inštrukčné (-Instruct) varianty sú primárny target pre väčšinu nasadení. Existujú aj -Base varianty pre customer fine-tuning.
3. Pozícia voči konkurencii
K máju 2026 publikované čísla na hlavných coding benchmarkoch (oficiálny Qwen technical report + nezávislé re-runy LMSYS a Aider tímu):
| Model | SWE-bench Verified | Aider Polyglot | LiveCodeBench v6 | Licencia |
|---|---|---|---|---|
| Claude Opus 4.7 | ~84% | ~78% | ~75% | closed |
| GPT-5.3-Codex | ~82% | ~76% | ~73% | closed |
| Qwen3-Coder-480B | ~70% | ~63% | ~68% | Apache 2.0 |
| DeepSeek-Coder V3 | ~67% | ~60% | ~66% | open (MIT) |
| Claude Sonnet 4.6 | ~74% | ~69% | ~70% | closed |
| Qwen3-Coder-32B | ~58% | ~51% | ~57% | Apache 2.0 |
Čítanie: Qwen3-Coder-480B zatvára medzeru voči closed-source flagship-om asi na 14 percentuálnych bodov (SWE-bench Verified). Pre open-weight tier je to k máju 2026 nový state-of-the-art — predtým držal DeepSeek-Coder V3.
Praktické dôsledky:
- Pre tímy ktoré musia mať on-prem deployment kvôli compliance (banking, healthcare, európsky public sector) — Qwen3-Coder-480B je najlepšia open dostupná voľba
- Pre väčšinu komerčných coding workflow-ov ostáva Claude Sonnet/Opus alebo GPT cost-efficient (Qwen pri 480B parametrov vyžaduje 8× H100 minimum)
- Sweet spot pre lokálny dev copilot je Qwen3-Coder-14B alebo 30B-A3B — beží na jedinej karte, latency ~30–80ms/token
4. Kde hostovať
Cloud hosted (managed):
- Together AI —
Qwen/Qwen3-Coder-480B-A35B-Instruct, $0.18/$0.54 per M tokens (input/output) - Hugging Face Inference Endpoints — dedicated GPU, pay-per-hour
- DashScope (Alibaba Cloud) — natívny provider, najnižšia latencia v APAC regióne
- Cloudflare Workers AI — Qwen3-Coder-30B-A3B available v Beta, pay-per-request
Self-hosted (open weights):
- vLLM — odporúčaný serving stack pre throughput, native FP8 support
- SGLang — alternatíva s lepším caching pre multi-turn workloads (relevantné pre agentné scenáre)
- llama.cpp / MLX — GGUF kvanty pre 7B/14B variants do Apple Silicon / consumer GPU
vLLM serve example (480B FP8 na 8× H100):
vllm serve Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--enable-prefix-caching \
--gpu-memory-utilization 0.92 \
--port 8080
Hugging Face Inference snippet (Python):
from huggingface_hub import InferenceClient
client = InferenceClient(
model="Qwen/Qwen3-Coder-480B-A35B-Instruct",
token="hf_xxx",
)
response = client.chat_completion(
messages=[
{"role": "system", "content": "You are a senior Python engineer."},
{"role": "user", "content": "Refactor this function to use asyncio: ..."},
],
max_tokens=4096,
temperature=0.2,
)
print(response.choices[0].message.content)
5. Kedy Qwen3 Coder zvoliť (a kedy nie)
Zvoliť keď:
- potrebujete open weights — fine-tuning na firemný codebase, audit modelu, on-prem nasadenie
- máte hardvér — minimum 1× H100/A100 pre 14B variant, 8× H100 pre 480B
- coding-only workload — chat, prekladanie textu alebo general reasoning na Qwen3 Coder nesedí, použite Qwen 3.5 alebo proprietárny model
- multi-turn agentný workflow (Aider, OpenHands, Cline, Roo Code) — Qwen3 Coder bol tu trénovaný špecificky
Nezvoliť keď:
- hľadáte best-quality bez ohľadu na cenu — Claude Opus 4.7 / GPT-5.3-Codex sú stále vpredu na 10–14 percentuálnych bodov
- malý tím bez ML ops — managed Claude/GPT je v praxi lacnejší než prevádzkovať vlastné H100 clustre
- potrebujete natívnu multimodalitu (screenshot debugging, diagram-to-code) — Qwen3-Coder je text-only; pre to slúži Qwen 3.5-VL alebo Qwen3-Omni
6. Praktické tipy pri nasadení
- Pre FIM použite správny prompt template — Qwen3 Coder má dedikované
<|fim_prefix|>/<|fim_middle|>/<|fim_suffix|>tokeny. Bez nich klesne accuracy na editing úlohách o 15–20%. - Speculative decoding s 7B draft modelom zvýši throughput 480B variantu o ~2.3× pri zachovaní kvality (verified Qwen team).
- Context budget management — pri 256K kontexte sa prefix cache stáva kritickou. Bez
--enable-prefix-cachingvo vLLM klesne agent throughput dramaticky. - Temperature 0.0–0.2 pre kódový output, 0.6–0.8 pre brainstorming/refactor návrhy.
- Tool use cez OpenAI-compatible function calling — Qwen3 Coder podporuje natívne, ale schema musí ísť do
toolsparametra, nie do system promptu.
7. TL;DR
- Qwen3 Coder = open-weight, coding-špecializovaná odčlenená vetva Qwen3 rodiny (apríl 2026).
- Flagship 480B-A35B MoE dosahuje SWE-bench Verified ~70%, najvyššie spomedzi open modelov k máju 2026.
- 256K kontext natívne, 1M cez YaRN, agent-first tréning, Apache 2.0.
- Sweet spot pre lokálny copilot = 14B alebo 30B-A3B variant na jednej GPU.
- Stále zaostáva ~14 bodov za Claude Opus 4.7 / GPT-5.3-Codex; voľba je o compliance / open-source / cene, nie o čistom skóre.