Qwen 3.5

Qwen 3.5 je rozsiahla rodina open-weight jazykových modelov od tímu Qwen / Alibaba Cloud, vydaná vo februári a marci 2026. Priamo nadväzuje na Qwen3 a prináša zásadné rozšírenia: väčší rozsah veľkostí (od 0,8B po 397B parametrov), natívnu multimodalitu (Qwen3.5-Omni), hybridnú MoE architektúru a výrazne vylepšenú jazykovú pokrytosť (201 jazykov). Rodina pokrýva všetko od mobilných zariadení až po multi-GPU serverové prostredie, pričom väčšina modelov je distribuovaná pod licenciou Apache 2.0.


1. Čo je Qwen 3.5

Qwen 3.5 bol predstavený v dvoch fázach:

  • 16. február 2026 — vydané vlajkové modely vrátane Qwen3.5-397B-A17B (MoE) a hostovanej verzie Qwen3.5-Plus cez DashScope
  • 2. marec 2026 — séria malých modelov (0,8B, 2B, 4B, 9B) zameraných na on-device nasadenie
  • 30. marec 2026 — Qwen3.5-Omni: natívne multimodálny model spracovávajúci text, obrázky, audio a video v jedinom systéme

Zásadný posun oproti predchodcovi Qwen3 je v šírke rodiny a v architektúre: Qwen3.5 kombinuje dense varianty (9B, 14B, 27B) s hybridnými MoE modelmi (35B-A3B, 122B-A10B, 397B-A17B), kde číslo za písmenom A udáva aktívne parametre per token. Napríklad Qwen3.5-397B-A17B má síce 397 miliárd parametrov celkovo, no pri každom tokene aktivuje len ~17B — podobne ako Llama 4 Maverick.


2. Hlavné zmeny oproti Qwen3

Architektúra

  • Gated Delta Networks + sparse MoE — nová hybridná architektúra nahradila štandardné attention vrstvy v častiach siete; výsledok je vyšší priepustnosť pri menšej latencie
  • Rozšírené MoE varianty — Qwen3 mal prevažne dense modely; Qwen3.5 uvádza tri MoE varianty (35B-A3B, 122B-A10B, 397B-A17B) s rôznym pomerom celkových a aktívnych parametrov
  • Asynchronous RL trénovanie — masívne škálovateľné agentické scaffoldy počas trénovania zlepšili schopnosti function-callingu a plánovania

Kontext window

  • Štandardné okno je 262 144 tokenov (262K) naprieč celou rodinou — rovnaké ako Qwen3 Max, no teraz dostupné aj v menších variantoch
  • Qwen3.5-Omni má okno 256K tokenov s natívnou podporou 10+ hodín audia a 400+ sekúnd videa (720p, 1 FPS)

Multimodalita

  • Qwen3.5-Omni (vydaný 30. marca 2026) — natívny model pre text, obrázky, audio a video; Thinker-Talker architektúra generuje text aj streamovanú reč v reálnom čase; pokrýva 74 jazykov + 39 čínskych dialektov vo výstupe, vstup rozumie 113 jazykom
  • Predtrénovaný na 100M+ hodinách audiovizuálnych dát — nejde o text model s pripojeným enkodérom, ale o natívne multimodálnu architektúru

Jazykové pokrytie

  • Qwen3 podporoval 82 jazykov, Qwen3.5 rozširuje na 201 jazykov a dialektov — vrátane lepšej tokenizácie pre menej rozšírené európske jazyky

Kódovanie

  • Qwen3.5 nemá dedikovanú „Coder" vetvu ako predchádzajúci Qwen2.5-Coder — schopnosti kódovania sú integrované priamo do všetkých modelov rodiny (Qwen3-Coder z júla 2025 zostáva samostatne, ale v rade 3.5 sa neopakuje)
  • Výsledok: 122B-A10B dosahuje 72,2 bodov na BFCL-V4 (tool use benchmark), čo prekonáva GPT-5 mini (55,5) o ~30 %
  • Na Aider Polyglot benchmark sa veľké Qwen3.5 varianty pohybujú na úrovni porovnateľnej s Qwen3 líniou

3. Varianty modelu

Model Parametre (aktívne / celkové) Kontext Typ Primárny use case
Qwen3.5-0.8B 0,8B / 0,8B dense 262K Text Edge, mobilné zariadenia
Qwen3.5-2B 2B / 2B dense 262K Text On-device asistent
Qwen3.5-4B 4B / 4B dense 262K Text Lokálny asistent, laptop
Qwen3.5-9B 9B / 9B dense 262K Text Pracovná stanica, RAG
Qwen3.5-14B 14B / 14B dense 262K Text Produkčný mid-tier
Qwen3.5-27B 27B / 27B dense 262K Text Server, coding, tímový model
Qwen3.5-35B-A3B ~3B / 35B MoE 262K Text Efektívny mid-tier (menej VRAM)
Qwen3.5-122B-A10B ~10B / 122B MoE 262K Text Function calling, agenti
Qwen3.5-397B-A17B ~17B / 397B MoE 262K Text Vlajkový výkon, multi-GPU
Qwen3.5-Plus nedostupné (hostovaný) 262K Text Cloud API, bez vlastného GPU
Qwen3.5-Omni MoE (veľkosť nezverejnená) 256K Omni Text + obraz + audio + video

Poznámka: Qwen3.5-35B-A3B je obzvlášť zaujímavý — pri aktívnych ~3B parametroch má latenciu porovnateľnú s malým modelom, no kvalitu väčšieho modelu.


4. Praktické použitie

Cloud API — DashScope a ďalší poskytovatelia

Najrýchlejší štart je cez Alibaba Cloud DashScope s OpenAI-kompatibilným API endpointom:

  • Qwen3.5-Plus: ~$0,26 / 1M input tokenov, ~$1,56 / 1M output tokenov (cez OpenRouter)
  • Qwen3.5-9B: ~$0,04 / 1M input, ~$0,15 / 1M output
  • Endpoint pre DashScope: https://dashscope.aliyuncs.com/compatible-mode/v1

Alternatívni hostitelia (menej latencie v EU/USA):

  • Together AI — Qwen3.5 modely dostupné s OpenAI-compatible endpointom
  • Fireworks AI — Qwen3.5 v portfóliu, competitive pricing pre high-throughput
  • Hyperbolic — zamerané na open-weight modely, dobré pre experimenty
  • OpenRouter — agregátor; umožňuje prepínanie medzi poskytovateľmi s jedným kľúčom

Self-hosted — Ollama (lokálny štart za 5 minút)

Najjednoduchší spôsob spustenia lokálne:

# Stiahni a spusti Qwen3.5 9B (odporúčané pre RTX 3060 12GB+)
ollama pull qwen3.5:9b
ollama run qwen3.5:9b

# Väčší model pre RTX 4090 (24GB)
ollama pull qwen3.5:27b
ollama run qwen3.5:27b

# MoE variant — malá VRAM záťaž, lepšia kvalita
ollama pull qwen3.5:35b-a3b
ollama run qwen3.5:35b-a3b

Self-hosted — vLLM (produkčné nasadenie)

vLLM je odporúčaný framework pre serverové nasadenie — PagedAttention a MoE-aware scheduling sú kľúčové pre efektívnu inferenciu:

# Qwen3.5-9B s podporou tool callingu a reasoning parsera
vllm serve Qwen/Qwen3.5-9B \
  --port 8000 \
  --tensor-parallel-size 1 \
  --max-model-len 262144 \
  --reasoning-parser qwen3 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder

# Qwen3.5-27B na 2x GPU
vllm serve Qwen/Qwen3.5-27B \
  --port 8000 \
  --tensor-parallel-size 2 \
  --dtype bfloat16

Kvantizácia — GGUF pre llama.cpp

Pre lokálne nasadenie na consumer hardware:

# Stiahnutie GGUF verzie (komunita na Hugging Face)
# Q4_K_M je dobrý kompromis výkon/veľkosť
llama-cli \
  -m Qwen3.5-27B-Q4_K_M.gguf \
  -p "Analyzuj nasledujúci Python kód a navrhni refaktoring:" \
  -n 2048 \
  --ctx-size 8192

Hardvérové požiadavky (orientačné)

Model Q4_K_M VRAM Q8 VRAM Odporúčaný GPU
9B dense ~5,1 GB ~9,5 GB RTX 3060 12GB
14B dense ~8,5 GB ~15 GB RTX 3080 16GB
27B dense ~16,1 GB ~28,9 GB RTX 4090 24GB
35B-A3B MoE ~19,6 GB ~35 GB RTX 4090 / A6000
122B-A10B MoE ~65 GB ~122 GB 2× H100 80GB
397B-A17B MoE ~222 GB ~400 GB (bf16) 3-4× H100 / H200

Pre Qwen3.5-27B na RTX 4090 pri Q4 kvantizácii dosahuje Ollama 40–50 tokenov za sekundu.

Integrácia do coding agentov

Continue.dev (VS Code / JetBrains):

// ~/.continue/config.json (ukážka)
{
  "models": [
    {
      "title": "Qwen3.5-27B (lokálne)",
      "provider": "ollama",
      "model": "qwen3.5:27b",
      "contextLength": 32768
    },
    {
      "title": "Qwen3.5-Plus (cloud)",
      "provider": "openai",
      "model": "qwen3.5-plus-02-15",
      "apiBase": "https://dashscope.aliyuncs.com/compatible-mode/v1",
      "apiKey": "<DASHSCOPE_API_KEY>"
    }
  ]
}

Aider — priama podpora cez --model parameter s OpenAI-compatible endpointom:

export OPENAI_API_KEY="<DASHSCOPE_API_KEY>"
export OPENAI_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"

aider --model qwen3.5-plus-02-15 --no-auto-commits

Qwen Code — Alibabou vydaný terminálový coding agent (fork Gemini CLI) s natívnou podporou Qwen modelov a vlastným názvom príkazov:

npm install -g @qwen-code/qwen-code
export DASHSCOPE_API_KEY="<kľúč>"
qwen "Implementuj REST endpoint v FastAPI pre CRUD operácie nad users tabuľkou"

Function calling a tool use — príklad s OpenAI SDK

Qwen3.5 poskytuje plne OpenAI-kompatibilné function calling rozhranie. Stačí zmeniť base_url a api_key:

from openai import OpenAI
import json

client = OpenAI(
    api_key="<DASHSCOPE_API_KEY>",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

# Definícia nástroja
tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Získaj aktuálne počasie pre zadané mesto",
            "parameters": {
                "type": "object",
                "properties": {
                    "city": {
                        "type": "string",
                        "description": "Názov mesta, napr. 'Bratislava'",
                    },
                    "units": {
                        "type": "string",
                        "enum": ["celsius", "fahrenheit"],
                        "default": "celsius",
                    },
                },
                "required": ["city"],
            },
        },
    }
]

messages = [
    {"role": "user", "content": "Aké je dnes počasie v Bratislave?"}
]

response = client.chat.completions.create(
    model="qwen3.5-plus-02-15",
    messages=messages,
    tools=tools,
    tool_choice="auto",
    extra_body={
        "chat_template_kwargs": {"enable_thinking": False}  # vypni reasoning pre rýchlejší tool call
    },
)

# Spracovanie tool volania
choice = response.choices[0]
if choice.finish_reason == "tool_calls":
    for tool_call in choice.message.tool_calls:
        func_name = tool_call.function.name
        args = json.loads(tool_call.function.arguments)
        print(f"Model volá nástroj: {func_name}({args})")

Rovnaký kód funguje aj s lokálnym vLLM serverom — stačí zmeniť base_url na http://localhost:8000/v1.


5. Benchmarky vs. konkurencia

Benchmark Qwen3.5-397B (reasoning) Qwen3.5-122B Llama 4 Maverick DeepSeek R1 Claude Opus 4.7
MMLU ~91 ~86 85,5 % ~88 ~88 %
GSM8K / MATH vysoké konkurencieschopné 91,5 % 97,3 % (MATH-500) ~95 %
HumanEval high-80s–low-90s ~83 91,5 % ~85 ~89 %
BFCL-V4 (tool use) 72,2 nie je k dispozícii nie je k dispozícii nie je k dispozícii
SWE-bench Verified podľa zatiaľ zverejnených údajov ~75+ ~70 74,2 % ~72 ~84 %
BenchLM.ai ranking 81 / 100 nie je v top 3 ~79 nie je open-weight
Kontext 262K 262K 1M 256K 1M

Tabuľka je orientačná. Čísla zo zdrojov sa líšia podľa podmienok testovania — robte vlastné eval-y.

Kde Qwen3.5 vyniká:

  • Function calling / tool use — BFCL-V4 skóre 72,2 pre 122B-A10B je výrazne nad GPT-5 mini; jeden z najsilnejších open-source modelov pre agentické workflow s nástrojmi
  • Pomer výkon/cena pri MoE — Qwen3.5-35B-A3B ponúka kvalitu väčšieho modelu pri inferenčných nákladoch zodpovedajúcich ~3B parametrom
  • Rýchlosť cez API — Qwen3.5-Plus dodáva odpovede podľa dostupných testov výrazne rýchlejšie než Sonnet-tier modely pri konkurencieschopnej kvalite
  • Čínsky jazyk a multilingválnosť — 201 jazykov; silná čínsko-anglická bilingválna kompetencia

Kde je slabší:

  • SWE-bench coding — Claude Opus 4.7 (~84 %) výrazne vedie pred Qwen3.5 pri reálnom softvérovom inžinierstve
  • Long-context konzistencia — pri extrémnych oknách (200K+) môže dochádzať k degradácii; Anthropic a Gemini 3.1 Pro sú spoľahlivejšie
  • Reasoning pri matematike — DeepSeek R1 dominuje na MATH-500 (97,3 %); Qwen3.5 je silný, nie jednotka

6. Príručka výberu use case

Kedy siahnuť po Qwen 3.5:

  • Open-weight licencia a nulové náklady na weights — Apache 2.0 umožňuje on-premise nasadenie bez licenčných poplatkov; kľúčové pre firmy s prísnou dátovou politikou
  • Agentické workloady s tool callingom — 122B-A10B je jedným z najsilnejších open modelov pre JSON-based function calling
  • Čínsky alebo multilingválny obsah — 201 jazykov; v čínštine výrazne prekonáva európskych konkurentov
  • Cost-sensitive high-throughput — Qwen3.5-9B za cca $0,04/1M tokenov je vhodný pre masové spracovanie
  • On-device / edge — 0,8B a 2B varianty pre mobilné aplikácie bez cloudovej závislosti
  • Lokálne nasadenie na consumer GPU — 27B v Q4 na RTX 4090 je reálna možnosť pre tím bez serverového GPU

Kedy radšej Claude / GPT:

  • Najvyššia coding presnosť v multi-súborových projektoch — Claude Opus 4.7 (SWE-bench ~84 %) výrazne vedie
  • Overená agentic stabilita pri dlhých behoch — Anthropic investuje špecificky do agentic spolahlivosti
  • Vyšší alignment a bezpečnostná úroveň — kritické pre produkty s citlivým obsahom alebo regulačnou záťažou
  • Air-gap nie je nutný a chcete zero-ops — proprietárne API je jednoduchšie na správu ako self-hosted infraštruktúra

7. Licencovanie a geopolitika

Licencia:

  • Väčšina open-weight Qwen3.5 modelov (dense + MoE) — Apache 2.0; komerčné použitie, fine-tuning, redistribúcia bez obmedzenia obratu
  • Qwen3.5-Omni a hostované varianty (Plus, Flash) — proprietárne podmienky DashScope / Alibaba Cloud Model Studio
  • GitHub repozitár QwenLM/Qwen3.5 obsahuje priamy súbor LICENSE s textom Apache 2.0

Bezpečnostné a geopolitické aspekty:

  • Qwen je vyvíjaný čínskym tímom v rámci Alibaba Group — technologickej firmy podliehajúcej čínskemu právu (vrátane zákona o národnej bezpečnosti)
  • US-China Economic and Security Review Commission identifikoval čínske open-source AI modely (vrátane Qwen) ako nástroj, ktorý pomáha prekonávať exportné obmedzenia na čipy
  • Pre západné firmy s compliance požiadavkami (obranný priemysel, finančná regulácia, zdravotníctvo) treba zohľadniť:
    • Cloud API cez DashScope = dáta prechádzajú čínskymi servermi
    • Self-hosted Apache 2.0 = weights sú vaše, žiadne odosielanie dát Alibabe
    • Niektoré európske a americké organizácie majú explicitnú policy zakazujúcu čínske AI modely (vrátane open-weight) v produkčných systémoch
  • Praktické odporúčanie: pre senzitívne použitia vždy zvoľte self-hosted variantu; na DashScope cloud API nasadzujte len anonymizované alebo verejné dáta

8. Slabosti

  • Slovenčina a menšie európske jazyky — napriek 201 jazykovej pokrytosti je kvalita pre slovenčinu obmedzená; modely trénované primárne na čínštinu a angličtinu; pre generovanie kvalitného slovenského textu sú Mistral alebo európske modely spoľahlivejšie
  • Refusal patterns a alignment — Qwen3.5 má menej konzistentné safety guardrails než Anthropic modely; môže dochádzať k nepredvídateľnému odmietaniu alebo naopak k nižšej opatrnosti pri hraničnom obsahu
  • Long-context degradácia — pri plnom využití 262K okna (najmä nad 150K tokenov) môže klesať presnosť; benchmark hodnoty pri maximálnom kontexte nie sú vždy k dispozícii
  • Transparentnosť trénovania — Alibaba nezverejňuje kompletné detaily trénovacej sady a RLHF pipeline, čo sťažuje audit pre regulované prostredia
  • MoE memory footprint — aj keď sú aktívne parametre malé, celkové weights musíte uložiť do VRAM; Qwen3.5-35B-A3B vyžaduje ~20 GB aj keď „aktívne" pracuje len s 3B parametrami
  • Ekosystémová podpora pre agent mode — niektoré nástroje (Continue.dev, Cursor) mali v čase vydania nekompletné agent-mode funkcie pre Qwen modely; situácia sa zlepšuje s každou verziou pluginov

9. Záver

V Q2 2026 patrí Qwen 3.5 medzi tri najvýznamnejšie open-weight rodiny na trhu — vedľa Llama 4 (Meta) a DeepSeek V4. Konkurenčná výhoda Qwen3.5 spočíva v kombinácii Apache 2.0 licencie, širokého rozsahu veľkostí, výnimočne silného tool calling skóre a reálneho čínsko-multilinguálneho pokrytia. Zároveň je to jedna z mála rodín, kde môžete nasadiť rovnakú architektonickú líniu od mobilného zariadenia (0,8B) až po multi-GPU server (397B-A17B).

Rodina Licencia Silná stránka Slabá stránka
Qwen 3.5 Apache 2.0 Tool calling, šírka rodiny, čínština Align. kvalita, slovenčina
Llama 4 Maverick Meta Custom Multimodál, MoE efektivita Benchmark kontroverzia, long-context
Gemma 4 Apache 2.0 Google ekosystém, právna čistota Menší rozsah veľkostí
DeepSeek V4 Open Math reasoning, MATH-500 Geopolitika, hosting ceny
Mistral Small 4 Apache 2.0 EU compliance, multilingválnosť Menší ekosystém

Pre tímy, ktoré hľadajú open-weight model s dobrým function callingom a nízkymi prevádzkovými nákladmi, je Qwen3.5 — najmä 27B a 35B-A3B varianty — veľmi silnou voľbou. Pre najvyššiu coding kvalitu a agentickú spoľahlivosť zostáva Claude Opus 4.7 štandardom. Qwen 3.5 však uzatvára priepasť rýchlejšie, ako väčšina očakávala.


Zdroje a ďalšie čítanie