Qwen 3.5

Qwen 3.5 je rozsiahla rodina open-weight jazykových modelov od tímu Qwen / Alibaba Cloud, vydaná vo februári a marci 2026. Priamo nadväzuje na Qwen3 a prináša zásadné rozšírenia: väčší rozsah veľkostí (od 0,8B po 397B parametrov), natívnu multimodalitu (Qwen3.5-Omni), hybridnú MoE architektúru a výrazne vylepšenú jazykovú pokrytosť (201 jazykov). Rodina pokrýva všetko od mobilných zariadení až po multi-GPU serverové prostredie, pričom väčšina modelov je distribuovaná pod licenciou Apache 2.0.

1. Čo je Qwen 3.5

Qwen 3.5 bol predstavený v dvoch fázach:

16. február 2026 — vydané vlajkové modely vrátane Qwen3.5-397B-A17B (MoE) a hostovanej verzie Qwen3.5-Plus cez DashScope
2. marec 2026 — séria malých modelov (0,8B, 2B, 4B, 9B) zameraných na on-device nasadenie
30. marec 2026 — Qwen3.5-Omni: natívne multimodálny model spracovávajúci text, obrázky, audio a video v jedinom systéme

Zásadný posun oproti predchodcovi Qwen3 je v šírke rodiny a v architektúre: Qwen3.5 kombinuje dense varianty (9B, 14B, 27B) s hybridnými MoE modelmi (35B-A3B, 122B-A10B, 397B-A17B), kde číslo za písmenom A udáva aktívne parametre per token. Napríklad Qwen3.5-397B-A17B má síce 397 miliárd parametrov celkovo, no pri každom tokene aktivuje len ~17B — podobne ako Llama 4 Maverick.

2. Hlavné zmeny oproti Qwen3

Architektúra

Gated Delta Networks + sparse MoE — nová hybridná architektúra nahradila štandardné attention vrstvy v častiach siete; výsledok je vyšší priepustnosť pri menšej latencie
Rozšírené MoE varianty — Qwen3 mal prevažne dense modely; Qwen3.5 uvádza tri MoE varianty (35B-A3B, 122B-A10B, 397B-A17B) s rôznym pomerom celkových a aktívnych parametrov
Asynchronous RL trénovanie — masívne škálovateľné agentické scaffoldy počas trénovania zlepšili schopnosti function-callingu a plánovania

Kontext window

Štandardné okno je 262 144 tokenov (262K) naprieč celou rodinou — rovnaké ako Qwen3 Max, no teraz dostupné aj v menších variantoch
Qwen3.5-Omni má okno 256K tokenov s natívnou podporou 10+ hodín audia a 400+ sekúnd videa (720p, 1 FPS)

Multimodalita

Qwen3.5-Omni (vydaný 30. marca 2026) — natívny model pre text, obrázky, audio a video; Thinker-Talker architektúra generuje text aj streamovanú reč v reálnom čase; pokrýva 74 jazykov + 39 čínskych dialektov vo výstupe, vstup rozumie 113 jazykom
Predtrénovaný na 100M+ hodinách audiovizuálnych dát — nejde o text model s pripojeným enkodérom, ale o natívne multimodálnu architektúru

Jazykové pokrytie

Qwen3 podporoval 82 jazykov, Qwen3.5 rozširuje na 201 jazykov a dialektov — vrátane lepšej tokenizácie pre menej rozšírené európske jazyky

Kódovanie

Qwen3.5 nemá dedikovanú „Coder" vetvu ako predchádzajúci Qwen2.5-Coder — schopnosti kódovania sú integrované priamo do všetkých modelov rodiny (Qwen3-Coder z júla 2025 zostáva samostatne, ale v rade 3.5 sa neopakuje)
Výsledok: 122B-A10B dosahuje 72,2 bodov na BFCL-V4 (tool use benchmark), čo prekonáva GPT-5 mini (55,5) o ~30 %
Na Aider Polyglot benchmark sa veľké Qwen3.5 varianty pohybujú na úrovni porovnateľnej s Qwen3 líniou

3. Varianty modelu

Model	Parametre (aktívne / celkové)	Kontext	Typ	Primárny use case
Qwen3.5-0.8B	0,8B / 0,8B dense	262K	Text	Edge, mobilné zariadenia
Qwen3.5-2B	2B / 2B dense	262K	Text	On-device asistent
Qwen3.5-4B	4B / 4B dense	262K	Text	Lokálny asistent, laptop
Qwen3.5-9B	9B / 9B dense	262K	Text	Pracovná stanica, RAG
Qwen3.5-14B	14B / 14B dense	262K	Text	Produkčný mid-tier
Qwen3.5-27B	27B / 27B dense	262K	Text	Server, coding, tímový model
Qwen3.5-35B-A3B	~3B / 35B MoE	262K	Text	Efektívny mid-tier (menej VRAM)
Qwen3.5-122B-A10B	~10B / 122B MoE	262K	Text	Function calling, agenti
Qwen3.5-397B-A17B	~17B / 397B MoE	262K	Text	Vlajkový výkon, multi-GPU
Qwen3.5-Plus	nedostupné (hostovaný)	262K	Text	Cloud API, bez vlastného GPU
Qwen3.5-Omni	MoE (veľkosť nezverejnená)	256K	Omni	Text + obraz + audio + video

Poznámka: Qwen3.5-35B-A3B je obzvlášť zaujímavý — pri aktívnych ~3B parametroch má latenciu porovnateľnú s malým modelom, no kvalitu väčšieho modelu.

4. Praktické použitie

Cloud API — DashScope a ďalší poskytovatelia

Najrýchlejší štart je cez Alibaba Cloud DashScope s OpenAI-kompatibilným API endpointom:

Qwen3.5-Plus: ~$0,26 / 1M input tokenov, ~$1,56 / 1M output tokenov (cez OpenRouter)
Qwen3.5-9B: ~$0,04 / 1M input, ~$0,15 / 1M output
Endpoint pre DashScope: https://dashscope.aliyuncs.com/compatible-mode/v1

Alternatívni hostitelia (menej latencie v EU/USA):

Together AI — Qwen3.5 modely dostupné s OpenAI-compatible endpointom
Fireworks AI — Qwen3.5 v portfóliu, competitive pricing pre high-throughput
Hyperbolic — zamerané na open-weight modely, dobré pre experimenty
OpenRouter — agregátor; umožňuje prepínanie medzi poskytovateľmi s jedným kľúčom

Self-hosted — Ollama (lokálny štart za 5 minút)

Najjednoduchší spôsob spustenia lokálne:

# Stiahni a spusti Qwen3.5 9B (odporúčané pre RTX 3060 12GB+)
ollama pull qwen3.5:9b
ollama run qwen3.5:9b

# Väčší model pre RTX 4090 (24GB)
ollama pull qwen3.5:27b
ollama run qwen3.5:27b

# MoE variant — malá VRAM záťaž, lepšia kvalita
ollama pull qwen3.5:35b-a3b
ollama run qwen3.5:35b-a3b

Self-hosted — vLLM (produkčné nasadenie)

vLLM je odporúčaný framework pre serverové nasadenie — PagedAttention a MoE-aware scheduling sú kľúčové pre efektívnu inferenciu:

# Qwen3.5-9B s podporou tool callingu a reasoning parsera
vllm serve Qwen/Qwen3.5-9B \
  --port 8000 \
  --tensor-parallel-size 1 \
  --max-model-len 262144 \
  --reasoning-parser qwen3 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder

# Qwen3.5-27B na 2x GPU
vllm serve Qwen/Qwen3.5-27B \
  --port 8000 \
  --tensor-parallel-size 2 \
  --dtype bfloat16

Kvantizácia — GGUF pre llama.cpp

Pre lokálne nasadenie na consumer hardware:

# Stiahnutie GGUF verzie (komunita na Hugging Face)
# Q4_K_M je dobrý kompromis výkon/veľkosť
llama-cli \
  -m Qwen3.5-27B-Q4_K_M.gguf \
  -p "Analyzuj nasledujúci Python kód a navrhni refaktoring:" \
  -n 2048 \
  --ctx-size 8192

Hardvérové požiadavky (orientačné)

Model	Q4_K_M VRAM	Q8 VRAM	Odporúčaný GPU
9B dense	~5,1 GB	~9,5 GB	RTX 3060 12GB
14B dense	~8,5 GB	~15 GB	RTX 3080 16GB
27B dense	~16,1 GB	~28,9 GB	RTX 4090 24GB
35B-A3B MoE	~19,6 GB	~35 GB	RTX 4090 / A6000
122B-A10B MoE	~65 GB	~122 GB	2× H100 80GB
397B-A17B MoE	~222 GB	~400 GB (bf16)	3-4× H100 / H200

Pre Qwen3.5-27B na RTX 4090 pri Q4 kvantizácii dosahuje Ollama 40–50 tokenov za sekundu.

Integrácia do coding agentov

Continue.dev (VS Code / JetBrains):

// ~/.continue/config.json (ukážka)
{
  "models": [
    {
      "title": "Qwen3.5-27B (lokálne)",
      "provider": "ollama",
      "model": "qwen3.5:27b",
      "contextLength": 32768
    },
    {
      "title": "Qwen3.5-Plus (cloud)",
      "provider": "openai",
      "model": "qwen3.5-plus-02-15",
      "apiBase": "https://dashscope.aliyuncs.com/compatible-mode/v1",
      "apiKey": "<DASHSCOPE_API_KEY>"
    }
  ]
}

Aider — priama podpora cez --model parameter s OpenAI-compatible endpointom:

export OPENAI_API_KEY="<DASHSCOPE_API_KEY>"
export OPENAI_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"

aider --model qwen3.5-plus-02-15 --no-auto-commits

Qwen Code — Alibabou vydaný terminálový coding agent (fork Gemini CLI) s natívnou podporou Qwen modelov a vlastným názvom príkazov:

npm install -g @qwen-code/qwen-code
export DASHSCOPE_API_KEY="<kľúč>"
qwen "Implementuj REST endpoint v FastAPI pre CRUD operácie nad users tabuľkou"

Function calling a tool use — príklad s OpenAI SDK

Qwen3.5 poskytuje plne OpenAI-kompatibilné function calling rozhranie. Stačí zmeniť base_url a api_key:

from openai import OpenAI
import json

client = OpenAI(
    api_key="<DASHSCOPE_API_KEY>",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

# Definícia nástroja
tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Získaj aktuálne počasie pre zadané mesto",
            "parameters": {
                "type": "object",
                "properties": {
                    "city": {
                        "type": "string",
                        "description": "Názov mesta, napr. 'Bratislava'",
                    },
                    "units": {
                        "type": "string",
                        "enum": ["celsius", "fahrenheit"],
                        "default": "celsius",
                    },
                },
                "required": ["city"],
            },
        },
    }
]

messages = [
    {"role": "user", "content": "Aké je dnes počasie v Bratislave?"}
]

response = client.chat.completions.create(
    model="qwen3.5-plus-02-15",
    messages=messages,
    tools=tools,
    tool_choice="auto",
    extra_body={
        "chat_template_kwargs": {"enable_thinking": False}  # vypni reasoning pre rýchlejší tool call
    },
)

# Spracovanie tool volania
choice = response.choices[0]
if choice.finish_reason == "tool_calls":
    for tool_call in choice.message.tool_calls:
        func_name = tool_call.function.name
        args = json.loads(tool_call.function.arguments)
        print(f"Model volá nástroj: {func_name}({args})")

Rovnaký kód funguje aj s lokálnym vLLM serverom — stačí zmeniť base_url na http://localhost:8000/v1.

5. Benchmarky vs. konkurencia

Benchmark	Qwen3.5-397B (reasoning)	Qwen3.5-122B	Llama 4 Maverick	DeepSeek R1	Claude Opus 4.7
MMLU	~91	~86	85,5 %	~88	~88 %
GSM8K / MATH	vysoké	konkurencieschopné	91,5 %	97,3 % (MATH-500)	~95 %
HumanEval	high-80s–low-90s	~83	91,5 %	~85	~89 %
BFCL-V4 (tool use)	—	72,2	nie je k dispozícii	nie je k dispozícii	nie je k dispozícii
SWE-bench Verified	podľa zatiaľ zverejnených údajov ~75+	~70	74,2 %	~72	~84 %
BenchLM.ai ranking	81 / 100	—	nie je v top 3	~79	nie je open-weight
Kontext	262K	262K	1M	256K	1M

Tabuľka je orientačná. Čísla zo zdrojov sa líšia podľa podmienok testovania — robte vlastné eval-y.

Kde Qwen3.5 vyniká:

Function calling / tool use — BFCL-V4 skóre 72,2 pre 122B-A10B je výrazne nad GPT-5 mini; jeden z najsilnejších open-source modelov pre agentické workflow s nástrojmi
Pomer výkon/cena pri MoE — Qwen3.5-35B-A3B ponúka kvalitu väčšieho modelu pri inferenčných nákladoch zodpovedajúcich ~3B parametrom
Rýchlosť cez API — Qwen3.5-Plus dodáva odpovede podľa dostupných testov výrazne rýchlejšie než Sonnet-tier modely pri konkurencieschopnej kvalite
Čínsky jazyk a multilingválnosť — 201 jazykov; silná čínsko-anglická bilingválna kompetencia

Kde je slabší:

SWE-bench coding — Claude Opus 4.7 (~84 %) výrazne vedie pred Qwen3.5 pri reálnom softvérovom inžinierstve
Long-context konzistencia — pri extrémnych oknách (200K+) môže dochádzať k degradácii; Anthropic a Gemini 3.1 Pro sú spoľahlivejšie
Reasoning pri matematike — DeepSeek R1 dominuje na MATH-500 (97,3 %); Qwen3.5 je silný, nie jednotka

6. Príručka výberu use case

Kedy siahnuť po Qwen 3.5:

Open-weight licencia a nulové náklady na weights — Apache 2.0 umožňuje on-premise nasadenie bez licenčných poplatkov; kľúčové pre firmy s prísnou dátovou politikou
Agentické workloady s tool callingom — 122B-A10B je jedným z najsilnejších open modelov pre JSON-based function calling
Čínsky alebo multilingválny obsah — 201 jazykov; v čínštine výrazne prekonáva európskych konkurentov
Cost-sensitive high-throughput — Qwen3.5-9B za cca $0,04/1M tokenov je vhodný pre masové spracovanie
On-device / edge — 0,8B a 2B varianty pre mobilné aplikácie bez cloudovej závislosti
Lokálne nasadenie na consumer GPU — 27B v Q4 na RTX 4090 je reálna možnosť pre tím bez serverového GPU

Kedy radšej Claude / GPT:

Najvyššia coding presnosť v multi-súborových projektoch — Claude Opus 4.7 (SWE-bench ~84 %) výrazne vedie
Overená agentic stabilita pri dlhých behoch — Anthropic investuje špecificky do agentic spolahlivosti
Vyšší alignment a bezpečnostná úroveň — kritické pre produkty s citlivým obsahom alebo regulačnou záťažou
Air-gap nie je nutný a chcete zero-ops — proprietárne API je jednoduchšie na správu ako self-hosted infraštruktúra

7. Licencovanie a geopolitika

Licencia:

Väčšina open-weight Qwen3.5 modelov (dense + MoE) — Apache 2.0; komerčné použitie, fine-tuning, redistribúcia bez obmedzenia obratu
Qwen3.5-Omni a hostované varianty (Plus, Flash) — proprietárne podmienky DashScope / Alibaba Cloud Model Studio
GitHub repozitár QwenLM/Qwen3.5 obsahuje priamy súbor LICENSE s textom Apache 2.0

Bezpečnostné a geopolitické aspekty:

Qwen je vyvíjaný čínskym tímom v rámci Alibaba Group — technologickej firmy podliehajúcej čínskemu právu (vrátane zákona o národnej bezpečnosti)
US-China Economic and Security Review Commission identifikoval čínske open-source AI modely (vrátane Qwen) ako nástroj, ktorý pomáha prekonávať exportné obmedzenia na čipy
Pre západné firmy s compliance požiadavkami (obranný priemysel, finančná regulácia, zdravotníctvo) treba zohľadniť:
- Cloud API cez DashScope = dáta prechádzajú čínskymi servermi
- Self-hosted Apache 2.0 = weights sú vaše, žiadne odosielanie dát Alibabe
- Niektoré európske a americké organizácie majú explicitnú policy zakazujúcu čínske AI modely (vrátane open-weight) v produkčných systémoch
Praktické odporúčanie: pre senzitívne použitia vždy zvoľte self-hosted variantu; na DashScope cloud API nasadzujte len anonymizované alebo verejné dáta

8. Slabosti

Slovenčina a menšie európske jazyky — napriek 201 jazykovej pokrytosti je kvalita pre slovenčinu obmedzená; modely trénované primárne na čínštinu a angličtinu; pre generovanie kvalitného slovenského textu sú Mistral alebo európske modely spoľahlivejšie
Refusal patterns a alignment — Qwen3.5 má menej konzistentné safety guardrails než Anthropic modely; môže dochádzať k nepredvídateľnému odmietaniu alebo naopak k nižšej opatrnosti pri hraničnom obsahu
Long-context degradácia — pri plnom využití 262K okna (najmä nad 150K tokenov) môže klesať presnosť; benchmark hodnoty pri maximálnom kontexte nie sú vždy k dispozícii
Transparentnosť trénovania — Alibaba nezverejňuje kompletné detaily trénovacej sady a RLHF pipeline, čo sťažuje audit pre regulované prostredia
MoE memory footprint — aj keď sú aktívne parametre malé, celkové weights musíte uložiť do VRAM; Qwen3.5-35B-A3B vyžaduje ~20 GB aj keď „aktívne" pracuje len s 3B parametrami
Ekosystémová podpora pre agent mode — niektoré nástroje (Continue.dev, Cursor) mali v čase vydania nekompletné agent-mode funkcie pre Qwen modely; situácia sa zlepšuje s každou verziou pluginov

9. Záver

V Q2 2026 patrí Qwen 3.5 medzi tri najvýznamnejšie open-weight rodiny na trhu — vedľa Llama 4 (Meta) a DeepSeek V4. Konkurenčná výhoda Qwen3.5 spočíva v kombinácii Apache 2.0 licencie, širokého rozsahu veľkostí, výnimočne silného tool calling skóre a reálneho čínsko-multilinguálneho pokrytia. Zároveň je to jedna z mála rodín, kde môžete nasadiť rovnakú architektonickú líniu od mobilného zariadenia (0,8B) až po multi-GPU server (397B-A17B).

Rodina	Licencia	Silná stránka	Slabá stránka
Qwen 3.5	Apache 2.0	Tool calling, šírka rodiny, čínština	Align. kvalita, slovenčina
Llama 4 Maverick	Meta Custom	Multimodál, MoE efektivita	Benchmark kontroverzia, long-context
Gemma 4	Apache 2.0	Google ekosystém, právna čistota	Menší rozsah veľkostí
DeepSeek V4	Open	Math reasoning, MATH-500	Geopolitika, hosting ceny
Mistral Small 4	Apache 2.0	EU compliance, multilingválnosť	Menší ekosystém

Pre tímy, ktoré hľadajú open-weight model s dobrým function callingom a nízkymi prevádzkovými nákladmi, je Qwen3.5 — najmä 27B a 35B-A3B varianty — veľmi silnou voľbou. Pre najvyššiu coding kvalitu a agentickú spoľahlivosť zostáva Claude Opus 4.7 štandardom. Qwen 3.5 však uzatvára priepasť rýchlejšie, ako väčšina očakávala.