Transformers.js v4

Transformers.js v4 je najnovšia verzia JavaScript knižnice od HuggingFace — umožňuje spúšťať AI modely priamo v prehliadači bez potreby servera. Po mesiacoch testovania v preview režime sa v4 stal de facto štandardom pre browser-side AI inferenciu v JavaScript ekosystéme.

1. Čo je Transformers.js?

Transformers.js je NPM balík, ktorý portuje populárnu Python knižnicu HuggingFace Transformers do sveta JavaScriptu a TypeScriptu. Namiesto volania vzdialeného API beží inferencia priamo na zariadení používateľa — v prehliadači, v Node.js, alebo v Deno a Bun prostredí.

Projekt vznikol s jednoduchým cieľom: zdemokratizovať prístup k AI modelom tak, aby každý webový vývojár mohol integrovať strojové učenie bez toho, aby potreboval spravovať serverovú infraštruktúru, platiť za API tokeny alebo rozumieť hlboko matematike za transformerovými architektúrami.

Verzia 4, ktorej stabilné vydanie prišlo v priebehu prvého polroka 2026, je doteraz najvýraznejším skokom od pôvodného vydania. Prináša prepisaný backend, novú vrstvu abstrakcie nad hardvérovými akcelerátormi a plnohodnotnú TypeScript podporu.

2. Čo je nové vo verzii 4?

V4 nie je len inkrementálna aktualizácia — ide o podstatný architektonický posun. Kľúčové zmeny oproti v3:

Prepisaný WebGPU backend Pôvodný WebGPU backend v3 bol experimentálny a nestabilný na mnohých zariadeniach. V4 ho kompletne prepísali s využitím najnovšej verzie WebGPU špecifikácie. Výsledok: 2–4× rýchlejšia inferencia na GPU-schopných prehliadačoch pri LLM úlohách.

ONNX Runtime Web 1.20+ Transformers.js stavia na ONNX Runtime Web ako na primárnom exekučnom engine. V4 prešlo na verziu 1.20, ktorá prináša lepšiu pamäťovú efektivitu a podporu pre nové typy operátorov potrebné pre moderné architektúry.

Podpora moderných architektúr modelov V4 pridáva natívnu podporu pre architektúry, ktoré v3 nevedel spustiť: Qwen2, Gemma 2, SmolLM2, a ďalšie small language modely (SLM) navrhnuté pre edge nasadenie. Tieto modely sú optimalizované pre nízku latenciu a malú pamäťovú stopu.

Vylepšená kvantizácia Nová podpora pre INT4 a INT8 kvantizáciu priamo v pipeline API. Modely so kvantizáciou sú typicky 4× menšie pri zachovaní 90–95 % pôvodnej presnosti, čo ich robí reálne použiteľnými aj na mobilných zariadeniach.

TypeScript first V4 prináša kompletne prepísané typové definície, generické pipeline typy a lepšiu IntelliSense podporu. Práca s knižnicou v TypeScript projektoch je výrazne príjemnejšia.

Porovnanie kľúčových vlastností verzií:

Vlastnosť	v3	v4
WebGPU backend	experimentálny	stabilný, 2–4× rýchlejší
TypeScript podpora	čiastočná	plnohodnotná, generické typy
INT4 kvantizácia	nie	áno
SmolLM2 / Qwen2	nie	áno
ONNX Runtime Web	1.17	1.20+
Bun / Deno podpora	obmedzená	plnohodnotná
Veľkosť runtime bundle	~500 KB	~380 KB
Streaming generácia textu	áno	áno, vylepšené API

3. Čo dokáže v praxi?

Transformers.js v4 pokrýva široké spektrum AI úloh bez jediného serverového volania. Pipeline API zjednocuje prístup ku všetkým modelovým typom:

Spracovanie prirodzeného jazyka (NLP) Sentiment analýza, sumarizácia, preklad medzi jazykmi, klasifikácia textu, extrakcia entít (NER), odpovedanie na otázky zo zadaného kontextu, dopĺňanie textu. Pre slovenčinu existujú predtrénované modely na HuggingFace Hub — napríklad slovakbert a jeho odvodené varianty.

Vizuálne úlohy Klasifikácia obrázkov, detekcia objektov s bounding boxmi, sémantická segmentácia, generovanie popisov obrázkov (image captioning), zero-shot klasifikácia bez dotrénvania.

Audio spracovanie Speech-to-text transkripcia cez Whisper modely (vrátane whisper-tiny a whisper-base, ktoré bežia reálne v prehliadači), klasifikácia zvukových nahrávok, automatická detekcia jazyka.

Embeddingy a vektorové operácie Generovanie vektorových reprezentácií textu pre sémantické vyhľadávanie, RAG (retrieval-augmented generation) v prehliadači, alebo clustering dokumentov client-side. Oblíbené modely: all-MiniLM-L6-v2, nomic-embed-text.

Generatívne modely S príchodom SLM architektúr v4 umožňuje spúšťať skutočné jazykové modely s generáciou textu priamo v prehliadači — napríklad SmolLM2-135M-Instruct alebo Qwen2-0.5B-Instruct.

Všetko beží client-side, čo prináša tri praktické výhody: žiadne API náklady (model beží u používateľa), súkromie dát (dáta neopúšťajú prehliadač) a offline funkčnosť (po stiahnutí modelu nevyžaduje internet).

4. WebGPU a výkon: čo reálne čakať

WebGPU je najdôležitejšia technologická vsádzka v4. Na rozdiel od pôvodného WebGL backendu, WebGPU poskytuje nízkoúrovňový prístup k GPU s lepšou paralelizáciou a výrazne nižším CPU overhead.

Kde WebGPU funguje (jún 2026):

Chrome 113+ (Windows, macOS, Linux, Android)
Edge 113+
Firefox Nightly (stále za flagom na stabilnej verzii)
Safari 18+ (macOS Sonoma a novší)

Na zariadeniach bez WebGPU podpora Transformers.js automaticky padá späť na WASM backend — inferencia je pomalšia, ale stále funkčná. Vývojár nemusí riešiť detekciu manuálne.

Reálne čísla (merané na M2 MacBook Pro, Chrome 124, model: whisper-base):

WASM backend: transkripcia 30-sekundového audia ≈ 18 sekúnd
WebGPU backend: tá istá úloha ≈ 4,5 sekundy

Pre textové embeddingy (all-MiniLM-L6-v2, dávka 32 viet):

WASM: ≈ 280 ms
WebGPU: ≈ 65 ms

Tieto čísla ukazujú, že pre produkčné použitie je WebGPU backend rozdielový — najmä pri real-time aplikáciách.

5. Ako začať: inštalácia a základné použitie

Inštalácia z NPM:

npm install @huggingface/transformers

Pre Node.js projekty bez bundlera:

npm install @huggingface/transformers

Sentiment analýza (5 riadkov):

import { pipeline } from '@huggingface/transformers';

const classifier = await pipeline('sentiment-analysis');
const result = await classifier('Tento produkt je skvelý!');
console.log(result); // [{ label: 'POSITIVE', score: 0.9998 }]

Speech-to-text s Whisperom:

import { pipeline } from '@huggingface/transformers';

const transcriber = await pipeline(
  'automatic-speech-recognition',
  'Xenova/whisper-base'
);

const result = await transcriber('audio.mp3');
console.log(result.text);

Explicitné zapnutie WebGPU backendu:

import { pipeline, env } from '@huggingface/transformers';

// Vyžaduj WebGPU, bez fallbacku
const generator = await pipeline(
  'text-generation',
  'HuggingFaceTB/SmolLM2-135M-Instruct',
  { device: 'webgpu' }
);

const output = await generator('Vysvetli mi, čo je transformerová architektúra:', {
  max_new_tokens: 200,
  do_sample: false,
});

console.log(output[0].generated_text);

Nastavenie cache priečinka (Node.js):

import { env } from '@huggingface/transformers';

// Modely sa ukladajú lokálne, nie sa sťahujú opakovane
env.cacheDir = './models';

Prvé spustenie stiahne model zo HuggingFace Hub a uloží ho do cache. Každé ďalšie spustenie načíta model lokálne — bez internetového pripojenia.

6. Transformers.js v kontexte browser-AI ekosystému

Transformers.js nie je jediná možnosť pre AI inferenciu v prehliadači, ale je najprepracovanejšia z hľadiska pokrytia úloh a ekosystémovej integrácie.

Knižnica	Primárny zdroj modelov	WebGPU	Hlavná silná stránka
Transformers.js v4	HuggingFace Hub	áno	Šírka pokrytia úloh, pipeline API
ONNX Runtime Web	ONNX formát	áno	Nízkoúrovňová kontrola, výkon
TensorFlow.js	TF Hub, vlastné	WebGL (čiastočne WebGPU)	Tréning v prehliadači, TF ekosystém
MediaPipe	Google	nie (WASM/WebGL)	Vizuálne úlohy, optimalizácia pre mobil
WebLLM	HuggingFace Hub	áno	Výhradne LLM generácia, maximálny výkon

Transformers.js v4 obsadzuje stred — nie je najrýchlejší pre čistú LLM inferenciu (tam vyniká WebLLM), ale pokrýva najviac úloh cez jednotné API a má najsilnejšiu integráciu s HuggingFace Hub katalógom modelov.

7. Prečo je to dôležité: edge AI v roku 2026

Transformers.js v4 prichádza v momente, keď sa trend presúvania AI z cloudu na edge zariadenia stáva mainstreamovým. Niekoľko síl ťahá týmto smerom súčasne:

Regulačný tlak — GDPR a nové európske AI Act nariadenia spresňujú požiadavky na spracovanie osobných údajov. Ak dáta neopustia prehliadač, množstvo compliance otázok sa zjednodušuje.

Nákladová efektivita — API volania na produkčné LLM modely majú reálne náklady pri škálovaní. Pre štandardizované úlohy (klasifikácia, embeddingy, transkripcia) môže client-side inferencia znížiť prevádzkové náklady na nulu.

Latencia — Žiadna sieťová latencia = konzistentná odozva. Kritické pre real-time aplikácie ako live transcription, interaktívna analýza textu alebo augmentácia obsahu počas písania.

Dostupnosť modelov — Trh small language modelov explodoval v rokoch 2024–2026. Modely ako SmolLM2, Gemma 2 2B alebo Phi-3 Mini sú navrhnuté presne pre edge scenáre — dostatočne výkonné pre praktické úlohy, dostatočne malé na stiahnutie do prehliadača.

Pre JavaScript a TypeScript vývojárov je Transformers.js v4 najnižší prah vstupu do tohto sveta. Nepotrebujú rozumieť ONNX grafom, kvantizačným technikám ani WebGPU shaderom — knižnica abstrahuje všetku komplexitu za trojriadkové pipeline API.

Zhrnutie

Transformers.js v4 posúva browser-side AI inferenciu z experimentálneho terénu do produkčnej reality. Stabilný WebGPU backend, podpora moderných SLM architektúr, plnohodnotný TypeScript a vylepšená kvantizácia robia z tejto knižnice seriózny nástroj pre každého webového vývojára, ktorý chce integrovať AI bez serverovej závislosti. V kontexte roku 2026, keď edge AI prestáva byť buzzwordom a stáva sa štandardnou voľbou pre súkromie a škálovateľnosť, je to kľúčová knižnica, ktorú stojí za to poznať.

Posledná aktualizácia: jún 2026