Qwen3 Coder

Qwen3 Coder je špecializovaná rodina open-weight jazykových modelov od Qwen / Alibaba Cloud zameraná výlučne na softvérové inžinierstvo a agentné kódovanie. Rodina sa odčlenila od všeobecnej Qwen3 a Qwen 3.5 línie v apríli 2026 ako odpoveď na rastúcu konkurenciu medzi coding-špecializovanými modelmi (DeepSeek-Coder V3, Codestral 2, Claude Sonnet 4.6, GPT-5.3-Codex). K dátumu tohto článku (máj 2026) je Qwen3-Coder-480B-A35B najsilnejším open-weight coding modelom podľa väčšiny verejných benchmarkov.

1. Čo je Qwen3 Coder a ako sa líši od Qwen 3.5

Qwen 3.5 (vydaný február–marec 2026) je všeobecná multimodálna rodina. Qwen3 Coder je oproti tomu:

úzko špecializovaný — tréning sa sústredil na cca 7,5 bilióna code-heavy tokenov (oproti ~2 bilióna v Qwen 3.5), výrazne menej multilingual/text dát
agent-first design — natívne natrénovaný na multi-turn tool use, file editing a long-horizon coding úlohy (nie iba single-shot completion)
dlhý kontext bez kompromisu — 256K natívnych tokenov, rozšíriteľné na 1M cez YaRN scaling
fill-in-the-middle (FIM) ako prvotriedna úloha — model je explicitne ladený na editing existujúceho kódu, nie len na append

Rodina je distribuovaná pod licenciou Apache 2.0 (rovnako ako väčšina Qwen 3.5 modelov).

2. Veľkosti a varianty (k máju 2026)

Variant	Aktívne / celkové parametre	Context	Cieľová use case
Qwen3-Coder-7B	7B dense	256K	edge / IDE plugin / lokálny copilot
Qwen3-Coder-14B	14B dense	256K	jeden GPU (A100/H100), praktický baseline
Qwen3-Coder-32B	32B dense	256K	silný open-weight coder pre jeden uzol
Qwen3-Coder-30B-A3B	3B aktívne / 30B MoE	256K	rýchla inference, malá pamäť
Qwen3-Coder-480B-A35B	35B aktívne / 480B MoE	256K (1M cez YaRN)	flagship — porovnateľný s closed-source

Inštrukčné (-Instruct) varianty sú primárny target pre väčšinu nasadení. Existujú aj -Base varianty pre customer fine-tuning.

3. Pozícia voči konkurencii

K máju 2026 publikované čísla na hlavných coding benchmarkoch (oficiálny Qwen technical report + nezávislé re-runy LMSYS a Aider tímu):

Model	SWE-bench Verified	Aider Polyglot	LiveCodeBench v6	Licencia
Claude Opus 4.7	~84%	~78%	~75%	closed
GPT-5.3-Codex	~82%	~76%	~73%	closed
Qwen3-Coder-480B	~70%	~63%	~68%	Apache 2.0
DeepSeek-Coder V3	~67%	~60%	~66%	open (MIT)
Claude Sonnet 4.6	~74%	~69%	~70%	closed
Qwen3-Coder-32B	~58%	~51%	~57%	Apache 2.0

Čítanie: Qwen3-Coder-480B zatvára medzeru voči closed-source flagship-om asi na 14 percentuálnych bodov (SWE-bench Verified). Pre open-weight tier je to k máju 2026 nový state-of-the-art — predtým držal DeepSeek-Coder V3.

Praktické dôsledky:

Pre tímy ktoré musia mať on-prem deployment kvôli compliance (banking, healthcare, európsky public sector) — Qwen3-Coder-480B je najlepšia open dostupná voľba
Pre väčšinu komerčných coding workflow-ov ostáva Claude Sonnet/Opus alebo GPT cost-efficient (Qwen pri 480B parametrov vyžaduje 8× H100 minimum)
Sweet spot pre lokálny dev copilot je Qwen3-Coder-14B alebo 30B-A3B — beží na jedinej karte, latency ~30–80ms/token

4. Kde hostovať

Cloud hosted (managed):

Together AI — Qwen/Qwen3-Coder-480B-A35B-Instruct, $0.18/$0.54 per M tokens (input/output)
Hugging Face Inference Endpoints — dedicated GPU, pay-per-hour
DashScope (Alibaba Cloud) — natívny provider, najnižšia latencia v APAC regióne
Cloudflare Workers AI — Qwen3-Coder-30B-A3B available v Beta, pay-per-request

Self-hosted (open weights):

vLLM — odporúčaný serving stack pre throughput, native FP8 support
SGLang — alternatíva s lepším caching pre multi-turn workloads (relevantné pre agentné scenáre)
llama.cpp / MLX — GGUF kvanty pre 7B/14B variants do Apple Silicon / consumer GPU

vLLM serve example (480B FP8 na 8× H100):

vllm serve Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --enable-prefix-caching \
  --gpu-memory-utilization 0.92 \
  --port 8080

Hugging Face Inference snippet (Python):

from huggingface_hub import InferenceClient

client = InferenceClient(
    model="Qwen/Qwen3-Coder-480B-A35B-Instruct",
    token="hf_xxx",
)

response = client.chat_completion(
    messages=[
        {"role": "system", "content": "You are a senior Python engineer."},
        {"role": "user", "content": "Refactor this function to use asyncio: ..."},
    ],
    max_tokens=4096,
    temperature=0.2,
)
print(response.choices[0].message.content)

5. Kedy Qwen3 Coder zvoliť (a kedy nie)

Zvoliť keď:

potrebujete open weights — fine-tuning na firemný codebase, audit modelu, on-prem nasadenie
máte hardvér — minimum 1× H100/A100 pre 14B variant, 8× H100 pre 480B
coding-only workload — chat, prekladanie textu alebo general reasoning na Qwen3 Coder nesedí, použite Qwen 3.5 alebo proprietárny model
multi-turn agentný workflow (Aider, OpenHands, Cline, Roo Code) — Qwen3 Coder bol tu trénovaný špecificky

Nezvoliť keď:

hľadáte best-quality bez ohľadu na cenu — Claude Opus 4.7 / GPT-5.3-Codex sú stále vpredu na 10–14 percentuálnych bodov
malý tím bez ML ops — managed Claude/GPT je v praxi lacnejší než prevádzkovať vlastné H100 clustre
potrebujete natívnu multimodalitu (screenshot debugging, diagram-to-code) — Qwen3-Coder je text-only; pre to slúži Qwen 3.5-VL alebo Qwen3-Omni

6. Praktické tipy pri nasadení

Pre FIM použite správny prompt template — Qwen3 Coder má dedikované <|fim_prefix|> / <|fim_middle|> / <|fim_suffix|> tokeny. Bez nich klesne accuracy na editing úlohách o 15–20%.
Speculative decoding s 7B draft modelom zvýši throughput 480B variantu o ~2.3× pri zachovaní kvality (verified Qwen team).
Context budget management — pri 256K kontexte sa prefix cache stáva kritickou. Bez --enable-prefix-caching vo vLLM klesne agent throughput dramaticky.
Temperature 0.0–0.2 pre kódový output, 0.6–0.8 pre brainstorming/refactor návrhy.
Tool use cez OpenAI-compatible function calling — Qwen3 Coder podporuje natívne, ale schema musí ísť do tools parametra, nie do system promptu.

7. TL;DR

Qwen3 Coder = open-weight, coding-špecializovaná odčlenená vetva Qwen3 rodiny (apríl 2026).
Flagship 480B-A35B MoE dosahuje SWE-bench Verified ~70%, najvyššie spomedzi open modelov k máju 2026.
256K kontext natívne, 1M cez YaRN, agent-first tréning, Apache 2.0.
Sweet spot pre lokálny copilot = 14B alebo 30B-A3B variant na jednej GPU.
Stále zaostáva ~14 bodov za Claude Opus 4.7 / GPT-5.3-Codex; voľba je o compliance / open-source / cene, nie o čistom skóre.