Qwen3 Coder

Qwen3 Coder je špecializovaná rodina open-weight jazykových modelov od Qwen / Alibaba Cloud zameraná výlučne na softvérové inžinierstvo a agentné kódovanie. Rodina sa odčlenila od všeobecnej Qwen3 a Qwen 3.5 línie v apríli 2026 ako odpoveď na rastúcu konkurenciu medzi coding-špecializovanými modelmi (DeepSeek-Coder V3, Codestral 2, Claude Sonnet 4.6, GPT-5.3-Codex). K dátumu tohto článku (máj 2026) je Qwen3-Coder-480B-A35B najsilnejším open-weight coding modelom podľa väčšiny verejných benchmarkov.


1. Čo je Qwen3 Coder a ako sa líši od Qwen 3.5

Qwen 3.5 (vydaný február–marec 2026) je všeobecná multimodálna rodina. Qwen3 Coder je oproti tomu:

  • úzko špecializovaný — tréning sa sústredil na cca 7,5 bilióna code-heavy tokenov (oproti ~2 bilióna v Qwen 3.5), výrazne menej multilingual/text dát
  • agent-first design — natívne natrénovaný na multi-turn tool use, file editing a long-horizon coding úlohy (nie iba single-shot completion)
  • dlhý kontext bez kompromisu — 256K natívnych tokenov, rozšíriteľné na 1M cez YaRN scaling
  • fill-in-the-middle (FIM) ako prvotriedna úloha — model je explicitne ladený na editing existujúceho kódu, nie len na append

Rodina je distribuovaná pod licenciou Apache 2.0 (rovnako ako väčšina Qwen 3.5 modelov).


2. Veľkosti a varianty (k máju 2026)

Variant Aktívne / celkové parametre Context Cieľová use case
Qwen3-Coder-7B 7B dense 256K edge / IDE plugin / lokálny copilot
Qwen3-Coder-14B 14B dense 256K jeden GPU (A100/H100), praktický baseline
Qwen3-Coder-32B 32B dense 256K silný open-weight coder pre jeden uzol
Qwen3-Coder-30B-A3B 3B aktívne / 30B MoE 256K rýchla inference, malá pamäť
Qwen3-Coder-480B-A35B 35B aktívne / 480B MoE 256K (1M cez YaRN) flagship — porovnateľný s closed-source

Inštrukčné (-Instruct) varianty sú primárny target pre väčšinu nasadení. Existujú aj -Base varianty pre customer fine-tuning.


3. Pozícia voči konkurencii

K máju 2026 publikované čísla na hlavných coding benchmarkoch (oficiálny Qwen technical report + nezávislé re-runy LMSYS a Aider tímu):

Model SWE-bench Verified Aider Polyglot LiveCodeBench v6 Licencia
Claude Opus 4.7 ~84% ~78% ~75% closed
GPT-5.3-Codex ~82% ~76% ~73% closed
Qwen3-Coder-480B ~70% ~63% ~68% Apache 2.0
DeepSeek-Coder V3 ~67% ~60% ~66% open (MIT)
Claude Sonnet 4.6 ~74% ~69% ~70% closed
Qwen3-Coder-32B ~58% ~51% ~57% Apache 2.0

Čítanie: Qwen3-Coder-480B zatvára medzeru voči closed-source flagship-om asi na 14 percentuálnych bodov (SWE-bench Verified). Pre open-weight tier je to k máju 2026 nový state-of-the-art — predtým držal DeepSeek-Coder V3.

Praktické dôsledky:

  • Pre tímy ktoré musia mať on-prem deployment kvôli compliance (banking, healthcare, európsky public sector) — Qwen3-Coder-480B je najlepšia open dostupná voľba
  • Pre väčšinu komerčných coding workflow-ov ostáva Claude Sonnet/Opus alebo GPT cost-efficient (Qwen pri 480B parametrov vyžaduje 8× H100 minimum)
  • Sweet spot pre lokálny dev copilot je Qwen3-Coder-14B alebo 30B-A3B — beží na jedinej karte, latency ~30–80ms/token

4. Kde hostovať

Cloud hosted (managed):

  • Together AIQwen/Qwen3-Coder-480B-A35B-Instruct, $0.18/$0.54 per M tokens (input/output)
  • Hugging Face Inference Endpoints — dedicated GPU, pay-per-hour
  • DashScope (Alibaba Cloud) — natívny provider, najnižšia latencia v APAC regióne
  • Cloudflare Workers AI — Qwen3-Coder-30B-A3B available v Beta, pay-per-request

Self-hosted (open weights):

  • vLLM — odporúčaný serving stack pre throughput, native FP8 support
  • SGLang — alternatíva s lepším caching pre multi-turn workloads (relevantné pre agentné scenáre)
  • llama.cpp / MLX — GGUF kvanty pre 7B/14B variants do Apple Silicon / consumer GPU

vLLM serve example (480B FP8 na 8× H100):

vllm serve Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --enable-prefix-caching \
  --gpu-memory-utilization 0.92 \
  --port 8080

Hugging Face Inference snippet (Python):

from huggingface_hub import InferenceClient

client = InferenceClient(
    model="Qwen/Qwen3-Coder-480B-A35B-Instruct",
    token="hf_xxx",
)

response = client.chat_completion(
    messages=[
        {"role": "system", "content": "You are a senior Python engineer."},
        {"role": "user", "content": "Refactor this function to use asyncio: ..."},
    ],
    max_tokens=4096,
    temperature=0.2,
)
print(response.choices[0].message.content)

5. Kedy Qwen3 Coder zvoliť (a kedy nie)

Zvoliť keď:

  • potrebujete open weights — fine-tuning na firemný codebase, audit modelu, on-prem nasadenie
  • máte hardvér — minimum 1× H100/A100 pre 14B variant, 8× H100 pre 480B
  • coding-only workload — chat, prekladanie textu alebo general reasoning na Qwen3 Coder nesedí, použite Qwen 3.5 alebo proprietárny model
  • multi-turn agentný workflow (Aider, OpenHands, Cline, Roo Code) — Qwen3 Coder bol tu trénovaný špecificky

Nezvoliť keď:

  • hľadáte best-quality bez ohľadu na cenu — Claude Opus 4.7 / GPT-5.3-Codex sú stále vpredu na 10–14 percentuálnych bodov
  • malý tím bez ML ops — managed Claude/GPT je v praxi lacnejší než prevádzkovať vlastné H100 clustre
  • potrebujete natívnu multimodalitu (screenshot debugging, diagram-to-code) — Qwen3-Coder je text-only; pre to slúži Qwen 3.5-VL alebo Qwen3-Omni

6. Praktické tipy pri nasadení

  1. Pre FIM použite správny prompt template — Qwen3 Coder má dedikované <|fim_prefix|> / <|fim_middle|> / <|fim_suffix|> tokeny. Bez nich klesne accuracy na editing úlohách o 15–20%.
  2. Speculative decoding s 7B draft modelom zvýši throughput 480B variantu o ~2.3× pri zachovaní kvality (verified Qwen team).
  3. Context budget management — pri 256K kontexte sa prefix cache stáva kritickou. Bez --enable-prefix-caching vo vLLM klesne agent throughput dramaticky.
  4. Temperature 0.0–0.2 pre kódový output, 0.6–0.8 pre brainstorming/refactor návrhy.
  5. Tool use cez OpenAI-compatible function calling — Qwen3 Coder podporuje natívne, ale schema musí ísť do tools parametra, nie do system promptu.

7. TL;DR

  • Qwen3 Coder = open-weight, coding-špecializovaná odčlenená vetva Qwen3 rodiny (apríl 2026).
  • Flagship 480B-A35B MoE dosahuje SWE-bench Verified ~70%, najvyššie spomedzi open modelov k máju 2026.
  • 256K kontext natívne, 1M cez YaRN, agent-first tréning, Apache 2.0.
  • Sweet spot pre lokálny copilot = 14B alebo 30B-A3B variant na jednej GPU.
  • Stále zaostáva ~14 bodov za Claude Opus 4.7 / GPT-5.3-Codex; voľba je o compliance / open-source / cene, nie o čistom skóre.