Qwen 3.5
Qwen 3.5 je rozsiahla rodina open-weight jazykových modelov od tímu Qwen / Alibaba Cloud, vydaná vo februári a marci 2026. Priamo nadväzuje na Qwen3 a prináša zásadné rozšírenia: väčší rozsah veľkostí (od 0,8B po 397B parametrov), natívnu multimodalitu (Qwen3.5-Omni), hybridnú MoE architektúru a výrazne vylepšenú jazykovú pokrytosť (201 jazykov). Rodina pokrýva všetko od mobilných zariadení až po multi-GPU serverové prostredie, pričom väčšina modelov je distribuovaná pod licenciou Apache 2.0.
1. Čo je Qwen 3.5
Qwen 3.5 bol predstavený v dvoch fázach:
- 16. február 2026 — vydané vlajkové modely vrátane Qwen3.5-397B-A17B (MoE) a hostovanej verzie Qwen3.5-Plus cez DashScope
- 2. marec 2026 — séria malých modelov (0,8B, 2B, 4B, 9B) zameraných na on-device nasadenie
- 30. marec 2026 — Qwen3.5-Omni: natívne multimodálny model spracovávajúci text, obrázky, audio a video v jedinom systéme
Zásadný posun oproti predchodcovi Qwen3 je v šírke rodiny a v architektúre: Qwen3.5 kombinuje dense varianty (9B, 14B, 27B) s hybridnými MoE modelmi (35B-A3B, 122B-A10B, 397B-A17B), kde číslo za písmenom A udáva aktívne parametre per token. Napríklad Qwen3.5-397B-A17B má síce 397 miliárd parametrov celkovo, no pri každom tokene aktivuje len ~17B — podobne ako Llama 4 Maverick.
2. Hlavné zmeny oproti Qwen3
Architektúra
- Gated Delta Networks + sparse MoE — nová hybridná architektúra nahradila štandardné attention vrstvy v častiach siete; výsledok je vyšší priepustnosť pri menšej latencie
- Rozšírené MoE varianty — Qwen3 mal prevažne dense modely; Qwen3.5 uvádza tri MoE varianty (35B-A3B, 122B-A10B, 397B-A17B) s rôznym pomerom celkových a aktívnych parametrov
- Asynchronous RL trénovanie — masívne škálovateľné agentické scaffoldy počas trénovania zlepšili schopnosti function-callingu a plánovania
Kontext window
- Štandardné okno je 262 144 tokenov (262K) naprieč celou rodinou — rovnaké ako Qwen3 Max, no teraz dostupné aj v menších variantoch
- Qwen3.5-Omni má okno 256K tokenov s natívnou podporou 10+ hodín audia a 400+ sekúnd videa (720p, 1 FPS)
Multimodalita
- Qwen3.5-Omni (vydaný 30. marca 2026) — natívny model pre text, obrázky, audio a video; Thinker-Talker architektúra generuje text aj streamovanú reč v reálnom čase; pokrýva 74 jazykov + 39 čínskych dialektov vo výstupe, vstup rozumie 113 jazykom
- Predtrénovaný na 100M+ hodinách audiovizuálnych dát — nejde o text model s pripojeným enkodérom, ale o natívne multimodálnu architektúru
Jazykové pokrytie
- Qwen3 podporoval 82 jazykov, Qwen3.5 rozširuje na 201 jazykov a dialektov — vrátane lepšej tokenizácie pre menej rozšírené európske jazyky
Kódovanie
- Qwen3.5 nemá dedikovanú „Coder" vetvu ako predchádzajúci Qwen2.5-Coder — schopnosti kódovania sú integrované priamo do všetkých modelov rodiny (Qwen3-Coder z júla 2025 zostáva samostatne, ale v rade 3.5 sa neopakuje)
- Výsledok: 122B-A10B dosahuje 72,2 bodov na BFCL-V4 (tool use benchmark), čo prekonáva GPT-5 mini (55,5) o ~30 %
- Na Aider Polyglot benchmark sa veľké Qwen3.5 varianty pohybujú na úrovni porovnateľnej s Qwen3 líniou
3. Varianty modelu
| Model | Parametre (aktívne / celkové) | Kontext | Typ | Primárny use case |
|---|---|---|---|---|
| Qwen3.5-0.8B | 0,8B / 0,8B dense | 262K | Text | Edge, mobilné zariadenia |
| Qwen3.5-2B | 2B / 2B dense | 262K | Text | On-device asistent |
| Qwen3.5-4B | 4B / 4B dense | 262K | Text | Lokálny asistent, laptop |
| Qwen3.5-9B | 9B / 9B dense | 262K | Text | Pracovná stanica, RAG |
| Qwen3.5-14B | 14B / 14B dense | 262K | Text | Produkčný mid-tier |
| Qwen3.5-27B | 27B / 27B dense | 262K | Text | Server, coding, tímový model |
| Qwen3.5-35B-A3B | ~3B / 35B MoE | 262K | Text | Efektívny mid-tier (menej VRAM) |
| Qwen3.5-122B-A10B | ~10B / 122B MoE | 262K | Text | Function calling, agenti |
| Qwen3.5-397B-A17B | ~17B / 397B MoE | 262K | Text | Vlajkový výkon, multi-GPU |
| Qwen3.5-Plus | nedostupné (hostovaný) | 262K | Text | Cloud API, bez vlastného GPU |
| Qwen3.5-Omni | MoE (veľkosť nezverejnená) | 256K | Omni | Text + obraz + audio + video |
Poznámka: Qwen3.5-35B-A3B je obzvlášť zaujímavý — pri aktívnych ~3B parametroch má latenciu porovnateľnú s malým modelom, no kvalitu väčšieho modelu.
4. Praktické použitie
Cloud API — DashScope a ďalší poskytovatelia
Najrýchlejší štart je cez Alibaba Cloud DashScope s OpenAI-kompatibilným API endpointom:
- Qwen3.5-Plus: ~$0,26 / 1M input tokenov, ~$1,56 / 1M output tokenov (cez OpenRouter)
- Qwen3.5-9B: ~$0,04 / 1M input, ~$0,15 / 1M output
- Endpoint pre DashScope:
https://dashscope.aliyuncs.com/compatible-mode/v1
Alternatívni hostitelia (menej latencie v EU/USA):
- Together AI — Qwen3.5 modely dostupné s OpenAI-compatible endpointom
- Fireworks AI — Qwen3.5 v portfóliu, competitive pricing pre high-throughput
- Hyperbolic — zamerané na open-weight modely, dobré pre experimenty
- OpenRouter — agregátor; umožňuje prepínanie medzi poskytovateľmi s jedným kľúčom
Self-hosted — Ollama (lokálny štart za 5 minút)
Najjednoduchší spôsob spustenia lokálne:
# Stiahni a spusti Qwen3.5 9B (odporúčané pre RTX 3060 12GB+)
ollama pull qwen3.5:9b
ollama run qwen3.5:9b
# Väčší model pre RTX 4090 (24GB)
ollama pull qwen3.5:27b
ollama run qwen3.5:27b
# MoE variant — malá VRAM záťaž, lepšia kvalita
ollama pull qwen3.5:35b-a3b
ollama run qwen3.5:35b-a3b
Self-hosted — vLLM (produkčné nasadenie)
vLLM je odporúčaný framework pre serverové nasadenie — PagedAttention a MoE-aware scheduling sú kľúčové pre efektívnu inferenciu:
# Qwen3.5-9B s podporou tool callingu a reasoning parsera
vllm serve Qwen/Qwen3.5-9B \
--port 8000 \
--tensor-parallel-size 1 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder
# Qwen3.5-27B na 2x GPU
vllm serve Qwen/Qwen3.5-27B \
--port 8000 \
--tensor-parallel-size 2 \
--dtype bfloat16
Kvantizácia — GGUF pre llama.cpp
Pre lokálne nasadenie na consumer hardware:
# Stiahnutie GGUF verzie (komunita na Hugging Face)
# Q4_K_M je dobrý kompromis výkon/veľkosť
llama-cli \
-m Qwen3.5-27B-Q4_K_M.gguf \
-p "Analyzuj nasledujúci Python kód a navrhni refaktoring:" \
-n 2048 \
--ctx-size 8192
Hardvérové požiadavky (orientačné)
| Model | Q4_K_M VRAM | Q8 VRAM | Odporúčaný GPU |
|---|---|---|---|
| 9B dense | ~5,1 GB | ~9,5 GB | RTX 3060 12GB |
| 14B dense | ~8,5 GB | ~15 GB | RTX 3080 16GB |
| 27B dense | ~16,1 GB | ~28,9 GB | RTX 4090 24GB |
| 35B-A3B MoE | ~19,6 GB | ~35 GB | RTX 4090 / A6000 |
| 122B-A10B MoE | ~65 GB | ~122 GB | 2× H100 80GB |
| 397B-A17B MoE | ~222 GB | ~400 GB (bf16) | 3-4× H100 / H200 |
Pre Qwen3.5-27B na RTX 4090 pri Q4 kvantizácii dosahuje Ollama 40–50 tokenov za sekundu.
Integrácia do coding agentov
Continue.dev (VS Code / JetBrains):
// ~/.continue/config.json (ukážka)
{
"models": [
{
"title": "Qwen3.5-27B (lokálne)",
"provider": "ollama",
"model": "qwen3.5:27b",
"contextLength": 32768
},
{
"title": "Qwen3.5-Plus (cloud)",
"provider": "openai",
"model": "qwen3.5-plus-02-15",
"apiBase": "https://dashscope.aliyuncs.com/compatible-mode/v1",
"apiKey": "<DASHSCOPE_API_KEY>"
}
]
}
Aider — priama podpora cez --model parameter s OpenAI-compatible endpointom:
export OPENAI_API_KEY="<DASHSCOPE_API_KEY>"
export OPENAI_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"
aider --model qwen3.5-plus-02-15 --no-auto-commits
Qwen Code — Alibabou vydaný terminálový coding agent (fork Gemini CLI) s natívnou podporou Qwen modelov a vlastným názvom príkazov:
npm install -g @qwen-code/qwen-code
export DASHSCOPE_API_KEY="<kľúč>"
qwen "Implementuj REST endpoint v FastAPI pre CRUD operácie nad users tabuľkou"
Function calling a tool use — príklad s OpenAI SDK
Qwen3.5 poskytuje plne OpenAI-kompatibilné function calling rozhranie. Stačí zmeniť base_url a api_key:
from openai import OpenAI
import json
client = OpenAI(
api_key="<DASHSCOPE_API_KEY>",
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)
# Definícia nástroja
tools = [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "Získaj aktuálne počasie pre zadané mesto",
"parameters": {
"type": "object",
"properties": {
"city": {
"type": "string",
"description": "Názov mesta, napr. 'Bratislava'",
},
"units": {
"type": "string",
"enum": ["celsius", "fahrenheit"],
"default": "celsius",
},
},
"required": ["city"],
},
},
}
]
messages = [
{"role": "user", "content": "Aké je dnes počasie v Bratislave?"}
]
response = client.chat.completions.create(
model="qwen3.5-plus-02-15",
messages=messages,
tools=tools,
tool_choice="auto",
extra_body={
"chat_template_kwargs": {"enable_thinking": False} # vypni reasoning pre rýchlejší tool call
},
)
# Spracovanie tool volania
choice = response.choices[0]
if choice.finish_reason == "tool_calls":
for tool_call in choice.message.tool_calls:
func_name = tool_call.function.name
args = json.loads(tool_call.function.arguments)
print(f"Model volá nástroj: {func_name}({args})")
Rovnaký kód funguje aj s lokálnym vLLM serverom — stačí zmeniť base_url na http://localhost:8000/v1.
5. Benchmarky vs. konkurencia
| Benchmark | Qwen3.5-397B (reasoning) | Qwen3.5-122B | Llama 4 Maverick | DeepSeek R1 | Claude Opus 4.7 |
|---|---|---|---|---|---|
| MMLU | ~91 | ~86 | 85,5 % | ~88 | ~88 % |
| GSM8K / MATH | vysoké | konkurencieschopné | 91,5 % | 97,3 % (MATH-500) | ~95 % |
| HumanEval | high-80s–low-90s | ~83 | 91,5 % | ~85 | ~89 % |
| BFCL-V4 (tool use) | — | 72,2 | nie je k dispozícii | nie je k dispozícii | nie je k dispozícii |
| SWE-bench Verified | podľa zatiaľ zverejnených údajov ~75+ | ~70 | 74,2 % | ~72 | ~84 % |
| BenchLM.ai ranking | 81 / 100 | — | nie je v top 3 | ~79 | nie je open-weight |
| Kontext | 262K | 262K | 1M | 256K | 1M |
Tabuľka je orientačná. Čísla zo zdrojov sa líšia podľa podmienok testovania — robte vlastné eval-y.
Kde Qwen3.5 vyniká:
- Function calling / tool use — BFCL-V4 skóre 72,2 pre 122B-A10B je výrazne nad GPT-5 mini; jeden z najsilnejších open-source modelov pre agentické workflow s nástrojmi
- Pomer výkon/cena pri MoE — Qwen3.5-35B-A3B ponúka kvalitu väčšieho modelu pri inferenčných nákladoch zodpovedajúcich ~3B parametrom
- Rýchlosť cez API — Qwen3.5-Plus dodáva odpovede podľa dostupných testov výrazne rýchlejšie než Sonnet-tier modely pri konkurencieschopnej kvalite
- Čínsky jazyk a multilingválnosť — 201 jazykov; silná čínsko-anglická bilingválna kompetencia
Kde je slabší:
- SWE-bench coding — Claude Opus 4.7 (~84 %) výrazne vedie pred Qwen3.5 pri reálnom softvérovom inžinierstve
- Long-context konzistencia — pri extrémnych oknách (200K+) môže dochádzať k degradácii; Anthropic a Gemini 3.1 Pro sú spoľahlivejšie
- Reasoning pri matematike — DeepSeek R1 dominuje na MATH-500 (97,3 %); Qwen3.5 je silný, nie jednotka
6. Príručka výberu use case
Kedy siahnuť po Qwen 3.5:
- Open-weight licencia a nulové náklady na weights — Apache 2.0 umožňuje on-premise nasadenie bez licenčných poplatkov; kľúčové pre firmy s prísnou dátovou politikou
- Agentické workloady s tool callingom — 122B-A10B je jedným z najsilnejších open modelov pre JSON-based function calling
- Čínsky alebo multilingválny obsah — 201 jazykov; v čínštine výrazne prekonáva európskych konkurentov
- Cost-sensitive high-throughput — Qwen3.5-9B za cca $0,04/1M tokenov je vhodný pre masové spracovanie
- On-device / edge — 0,8B a 2B varianty pre mobilné aplikácie bez cloudovej závislosti
- Lokálne nasadenie na consumer GPU — 27B v Q4 na RTX 4090 je reálna možnosť pre tím bez serverového GPU
Kedy radšej Claude / GPT:
- Najvyššia coding presnosť v multi-súborových projektoch — Claude Opus 4.7 (SWE-bench ~84 %) výrazne vedie
- Overená agentic stabilita pri dlhých behoch — Anthropic investuje špecificky do agentic spolahlivosti
- Vyšší alignment a bezpečnostná úroveň — kritické pre produkty s citlivým obsahom alebo regulačnou záťažou
- Air-gap nie je nutný a chcete zero-ops — proprietárne API je jednoduchšie na správu ako self-hosted infraštruktúra
7. Licencovanie a geopolitika
Licencia:
- Väčšina open-weight Qwen3.5 modelov (dense + MoE) — Apache 2.0; komerčné použitie, fine-tuning, redistribúcia bez obmedzenia obratu
- Qwen3.5-Omni a hostované varianty (Plus, Flash) — proprietárne podmienky DashScope / Alibaba Cloud Model Studio
- GitHub repozitár
QwenLM/Qwen3.5obsahuje priamy súborLICENSEs textom Apache 2.0
Bezpečnostné a geopolitické aspekty:
- Qwen je vyvíjaný čínskym tímom v rámci Alibaba Group — technologickej firmy podliehajúcej čínskemu právu (vrátane zákona o národnej bezpečnosti)
- US-China Economic and Security Review Commission identifikoval čínske open-source AI modely (vrátane Qwen) ako nástroj, ktorý pomáha prekonávať exportné obmedzenia na čipy
- Pre západné firmy s compliance požiadavkami (obranný priemysel, finančná regulácia, zdravotníctvo) treba zohľadniť:
- Cloud API cez DashScope = dáta prechádzajú čínskymi servermi
- Self-hosted Apache 2.0 = weights sú vaše, žiadne odosielanie dát Alibabe
- Niektoré európske a americké organizácie majú explicitnú policy zakazujúcu čínske AI modely (vrátane open-weight) v produkčných systémoch
- Praktické odporúčanie: pre senzitívne použitia vždy zvoľte self-hosted variantu; na DashScope cloud API nasadzujte len anonymizované alebo verejné dáta
8. Slabosti
- Slovenčina a menšie európske jazyky — napriek 201 jazykovej pokrytosti je kvalita pre slovenčinu obmedzená; modely trénované primárne na čínštinu a angličtinu; pre generovanie kvalitného slovenského textu sú Mistral alebo európske modely spoľahlivejšie
- Refusal patterns a alignment — Qwen3.5 má menej konzistentné safety guardrails než Anthropic modely; môže dochádzať k nepredvídateľnému odmietaniu alebo naopak k nižšej opatrnosti pri hraničnom obsahu
- Long-context degradácia — pri plnom využití 262K okna (najmä nad 150K tokenov) môže klesať presnosť; benchmark hodnoty pri maximálnom kontexte nie sú vždy k dispozícii
- Transparentnosť trénovania — Alibaba nezverejňuje kompletné detaily trénovacej sady a RLHF pipeline, čo sťažuje audit pre regulované prostredia
- MoE memory footprint — aj keď sú aktívne parametre malé, celkové weights musíte uložiť do VRAM; Qwen3.5-35B-A3B vyžaduje ~20 GB aj keď „aktívne" pracuje len s 3B parametrami
- Ekosystémová podpora pre agent mode — niektoré nástroje (Continue.dev, Cursor) mali v čase vydania nekompletné agent-mode funkcie pre Qwen modely; situácia sa zlepšuje s každou verziou pluginov
9. Záver
V Q2 2026 patrí Qwen 3.5 medzi tri najvýznamnejšie open-weight rodiny na trhu — vedľa Llama 4 (Meta) a DeepSeek V4. Konkurenčná výhoda Qwen3.5 spočíva v kombinácii Apache 2.0 licencie, širokého rozsahu veľkostí, výnimočne silného tool calling skóre a reálneho čínsko-multilinguálneho pokrytia. Zároveň je to jedna z mála rodín, kde môžete nasadiť rovnakú architektonickú líniu od mobilného zariadenia (0,8B) až po multi-GPU server (397B-A17B).
| Rodina | Licencia | Silná stránka | Slabá stránka |
|---|---|---|---|
| Qwen 3.5 | Apache 2.0 | Tool calling, šírka rodiny, čínština | Align. kvalita, slovenčina |
| Llama 4 Maverick | Meta Custom | Multimodál, MoE efektivita | Benchmark kontroverzia, long-context |
| Gemma 4 | Apache 2.0 | Google ekosystém, právna čistota | Menší rozsah veľkostí |
| DeepSeek V4 | Open | Math reasoning, MATH-500 | Geopolitika, hosting ceny |
| Mistral Small 4 | Apache 2.0 | EU compliance, multilingválnosť | Menší ekosystém |
Pre tímy, ktoré hľadajú open-weight model s dobrým function callingom a nízkymi prevádzkovými nákladmi, je Qwen3.5 — najmä 27B a 35B-A3B varianty — veľmi silnou voľbou. Pre najvyššiu coding kvalitu a agentickú spoľahlivosť zostáva Claude Opus 4.7 štandardom. Qwen 3.5 však uzatvára priepasť rýchlejšie, ako väčšina očakávala.
Zdroje a ďalšie čítanie
- Qwen blog: Qwen3.5 — Towards Native Multimodal Agents
- Hugging Face: Qwen3.5-27B model card
- Ollama: qwen3.5 library
- vLLM Recipes: Qwen3.5 & Qwen3.6 Usage Guide
- Alibaba Cloud: Function Calling s Qwen modelmi
- MarkTechPost: Qwen3.5 Small Models
- DataCamp: Qwen3.5 Features, Access, and Benchmarks
- Will It Run AI: Qwen3.5 VRAM Requirements
- Compute Market: Qwen 3.5 Hardware Guide
- MindStudio: What Is Qwen 3.5