MiniMax M3: Open-weights útok na frontier triedu

MiniMax M3 je nová generácia modelu od šanghajského laboratória MiniMax, predstavená 1. júna 2026. Kombinuje tri veci, ktoré doteraz žiadny open-weight model neponúkal naraz: frontier-úroveň v kódovaní a agentických úlohách, kontextové okno 1 milión tokenov a natívnu multimodalitu (text, obraz, video). Pohon pod kapotou: nová architektúra MiniMax Sparse Attention, ktorá pri 1M kontexte zráža výpočet na token na dvadsatinu predchádzajúcej generácie.

1. Kde sa M3 vzal: cesta od M1 po M3

MiniMax sa do povedomia západnej komunity dostal modelom M1 (2025, hybridná „lightning attention") a najmä radom M2 — úsporným MoE modelom zameraným na agentické kódovanie, ktorý sa vďaka pomeru výkon/cena stal jedným z najpoužívanejších open-weights modelov u API providerov. Posledná iterácia MiniMax M2.1 už dýchala na frontier triedu v kóde.

M3 je skok, nie iterácia: MiniMax prestaval celý dátový pipeline (pretraining cez 100+ biliónov tokenov) a multimodalitu trénoval od prvého kroku — text a obraz zdieľajú sémantický priestor, nie sú dolepené adaptérom. Po generácii M2, ktorá používala plnú pozornosť, sa M3 zároveň vracia k riedkej pozornosti — tentoraz vo vlastnom prevedení.

2. MSA: riedka pozornosť bez kompresie

Kľúčová novinka je MiniMax Sparse Attention (MSA). Klasická attention škáluje kvadraticky s dĺžkou kontextu — pri 1M tokenoch je to neúnosné. MSA si ponecháva Grouped-Query Attention základ a nad ním robí blokový výber z reálnych, nekomprimovaných key-value párov: model sa pre každý token pozerá len na bloky kontextu, ktoré sú preň relevantné, ale tie vidí v plnom rozlíšení.

Výsledok podľa MiniMaxu:

1/20 výpočtu na token pri 1M kontexte oproti predchádzajúcej generácii,
9× rýchlejší prefill (spracovanie vstupu) a 15× rýchlejšie dekódovanie,
prakticky použiteľné 1M kontextové okno — API garantuje minimálne 512K, do 1M podľa kapacity.

3. Benchmarky: kde M3 reálne stojí

MiniMax publikoval výsledky, ktoré model stavajú medzi uzavreté frontier modely:

Benchmark	M3	Poznámka
SWE-Bench Pro	59.0 %	nad GPT-5.5 a Gemini 3.1 Pro, tesne pod Claude Opus 4.7
Terminal-Bench 2.1	66.0 %	agentická práca v termináli
BrowseComp	83.5	webový výskum — nad Opus 4.7 (79.3)
MCP Atlas	74.2 %	orchestrácia nástrojov cez MCP
OSWorld-Verified	70.1 %	ovládanie desktopu (computer use)

K číslam patrí zdravý odstup — sú to vendor benchmarky z launchu. Nezávislé testy ale potvrdzujú trend z demo ukážok: M3 zvládol 12-hodinovú autonómnu session (reprodukcia výskumného papera, 18 commitov) a optimalizáciu GPU kernelov z 7.6 % na 71.3 % využitia za 24 hodín. Na úlohách typu PostTrainBench zostáva za Opus 4.7 aj GPT-5.5.

4. Multimodalita a computer use

M3 je natívne multimodálny: berie text, obrázky aj video v jednej sekvencii a vie operovať desktopové prostredie (klikanie, terminál, prehliadač) — OSWorld skóre ho radí k najlepším open modelom pre computer-use agentov. Pre praktické nasadenie to znamená jedného agenta, ktorý si prečíta screenshot, upraví kód a overí výsledok v prehliadači bez prepínania modelov.

5. Dostupnosť, ceny, licencia

API: dostupné od launchu; vstup do 512K tokenov za štandardnú sadzbu, nad 512K platí vyššia long-context sadzba. Thinking režim je voliteľný per request.
Predplatné: Plus $20/mes. (~1.7B tokenov), Max $50 (~5.1B), Ultra $120 (~9.8B) — text, obraz, reč a hudba zdieľajú spoločný tokenový balík.
Open weights: MiniMax sa pri launchi zaviazal zverejniť technický report a váhy na Hugging Face/GitHub do ~10 dní od oznámenia (t. j. okolo 11. júna 2026); presný počet parametrov do zverejnenia reportu nie je známy. Pre predstavu mierky: predchádzajúca generácia mala ~230B celkových / ~10B aktívnych parametrov v MoE usporiadaní.

6. Čo to znamená a na čo si dať pozor

Open-weights dotiahli frontier v špecializáciách: v kóde a agentike sa rozdiel voči uzavretým modelom zúžil na jednotky percent — pre úlohy s citlivými dátami je M3 prvý open kandidát s reálne 1M kontextom.
Vendor čísla ≠ realita vašej úlohy: launch benchmarky vždy pretestujte na vlastnom workloade; všeobecný reasoning zostáva doménou frontier API (Opus 4.8, Claude Fable 5).
1M kontext nie je zadarmo: nad 512K platí vyššia sadzba a latencia rastie; dlhý kontext nenahrádza RAG tam, kde stačí vyhľadanie.
Samohosting bude náročný: model tejto mierky vyžaduje viacero GPU; pre väčšinu tímov bude praktickou cestou API alebo hostovaní provideri.

Zhrnutie

MiniMax M3 (1. jún 2026) = prvý open-weight model s frontier kódovaním, 1M kontextom a natívnou multimodalitou naraz.
MSA riedka pozornosť: 1/20 výpočtu na token pri 1M kontexte, 9× prefill, 15× dekódovanie.
SWE-Bench Pro 59 % (nad GPT-5.5, tesne pod Opus 4.7), silný computer use (OSWorld 70 %).
Váhy a technický report ohlásené do ~10 dní od launchu; API a predplatné dostupné hneď.