MiniMax M3: Open-weights útok na frontier triedu
MiniMax M3 je nová generácia modelu od šanghajského laboratória MiniMax, predstavená 1. júna 2026. Kombinuje tri veci, ktoré doteraz žiadny open-weight model neponúkal naraz: frontier-úroveň v kódovaní a agentických úlohách, kontextové okno 1 milión tokenov a natívnu multimodalitu (text, obraz, video). Pohon pod kapotou: nová architektúra MiniMax Sparse Attention, ktorá pri 1M kontexte zráža výpočet na token na dvadsatinu predchádzajúcej generácie.
1. Kde sa M3 vzal: cesta od M1 po M3
MiniMax sa do povedomia západnej komunity dostal modelom M1 (2025, hybridná „lightning attention") a najmä radom M2 — úsporným MoE modelom zameraným na agentické kódovanie, ktorý sa vďaka pomeru výkon/cena stal jedným z najpoužívanejších open-weights modelov u API providerov. Posledná iterácia MiniMax M2.1 už dýchala na frontier triedu v kóde.
M3 je skok, nie iterácia: MiniMax prestaval celý dátový pipeline (pretraining cez 100+ biliónov tokenov) a multimodalitu trénoval od prvého kroku — text a obraz zdieľajú sémantický priestor, nie sú dolepené adaptérom. Po generácii M2, ktorá používala plnú pozornosť, sa M3 zároveň vracia k riedkej pozornosti — tentoraz vo vlastnom prevedení.
2. MSA: riedka pozornosť bez kompresie
Kľúčová novinka je MiniMax Sparse Attention (MSA). Klasická attention škáluje kvadraticky s dĺžkou kontextu — pri 1M tokenoch je to neúnosné. MSA si ponecháva Grouped-Query Attention základ a nad ním robí blokový výber z reálnych, nekomprimovaných key-value párov: model sa pre každý token pozerá len na bloky kontextu, ktoré sú preň relevantné, ale tie vidí v plnom rozlíšení.
Výsledok podľa MiniMaxu:
- 1/20 výpočtu na token pri 1M kontexte oproti predchádzajúcej generácii,
- 9× rýchlejší prefill (spracovanie vstupu) a 15× rýchlejšie dekódovanie,
- prakticky použiteľné 1M kontextové okno — API garantuje minimálne 512K, do 1M podľa kapacity.
3. Benchmarky: kde M3 reálne stojí
MiniMax publikoval výsledky, ktoré model stavajú medzi uzavreté frontier modely:
| Benchmark | M3 | Poznámka |
|---|---|---|
| SWE-Bench Pro | 59.0 % | nad GPT-5.5 a Gemini 3.1 Pro, tesne pod Claude Opus 4.7 |
| Terminal-Bench 2.1 | 66.0 % | agentická práca v termináli |
| BrowseComp | 83.5 | webový výskum — nad Opus 4.7 (79.3) |
| MCP Atlas | 74.2 % | orchestrácia nástrojov cez MCP |
| OSWorld-Verified | 70.1 % | ovládanie desktopu (computer use) |
K číslam patrí zdravý odstup — sú to vendor benchmarky z launchu. Nezávislé testy ale potvrdzujú trend z demo ukážok: M3 zvládol 12-hodinovú autonómnu session (reprodukcia výskumného papera, 18 commitov) a optimalizáciu GPU kernelov z 7.6 % na 71.3 % využitia za 24 hodín. Na úlohách typu PostTrainBench zostáva za Opus 4.7 aj GPT-5.5.
4. Multimodalita a computer use
M3 je natívne multimodálny: berie text, obrázky aj video v jednej sekvencii a vie operovať desktopové prostredie (klikanie, terminál, prehliadač) — OSWorld skóre ho radí k najlepším open modelom pre computer-use agentov. Pre praktické nasadenie to znamená jedného agenta, ktorý si prečíta screenshot, upraví kód a overí výsledok v prehliadači bez prepínania modelov.
5. Dostupnosť, ceny, licencia
- API: dostupné od launchu; vstup do 512K tokenov za štandardnú sadzbu, nad 512K platí vyššia long-context sadzba. Thinking režim je voliteľný per request.
- Predplatné: Plus $20/mes. (~1.7B tokenov), Max $50 (~5.1B), Ultra $120 (~9.8B) — text, obraz, reč a hudba zdieľajú spoločný tokenový balík.
- Open weights: MiniMax sa pri launchi zaviazal zverejniť technický report a váhy na Hugging Face/GitHub do ~10 dní od oznámenia (t. j. okolo 11. júna 2026); presný počet parametrov do zverejnenia reportu nie je známy. Pre predstavu mierky: predchádzajúca generácia mala ~230B celkových / ~10B aktívnych parametrov v MoE usporiadaní.
6. Čo to znamená a na čo si dať pozor
- Open-weights dotiahli frontier v špecializáciách: v kóde a agentike sa rozdiel voči uzavretým modelom zúžil na jednotky percent — pre úlohy s citlivými dátami je M3 prvý open kandidát s reálne 1M kontextom.
- Vendor čísla ≠ realita vašej úlohy: launch benchmarky vždy pretestujte na vlastnom workloade; všeobecný reasoning zostáva doménou frontier API (Opus 4.8, Claude Fable 5).
- 1M kontext nie je zadarmo: nad 512K platí vyššia sadzba a latencia rastie; dlhý kontext nenahrádza RAG tam, kde stačí vyhľadanie.
- Samohosting bude náročný: model tejto mierky vyžaduje viacero GPU; pre väčšinu tímov bude praktickou cestou API alebo hostovaní provideri.
Zhrnutie
- MiniMax M3 (1. jún 2026) = prvý open-weight model s frontier kódovaním, 1M kontextom a natívnou multimodalitou naraz.
- MSA riedka pozornosť: 1/20 výpočtu na token pri 1M kontexte, 9× prefill, 15× dekódovanie.
- SWE-Bench Pro 59 % (nad GPT-5.5, tesne pod Opus 4.7), silný computer use (OSWorld 70 %).
- Váhy a technický report ohlásené do ~10 dní od launchu; API a predplatné dostupné hneď.