GPT-5 Turbo

GPT-5 Turbo je model od OpenAI, vydaný 7. apríla 2026, ktorý ako prvý v rodine GPT-5 ponúka natívnu prácu s textom, obrázkami aj zvukom v jedinom modeli — bez nutnosti reťaziť samostatné modely (DALL·E, TTS, Whisper). Jediným API volaním môžete analyzovať diagram, upraviť ho a dostať späť obrázok aj zvukový komentár.

（GPT-5 Turbo je odlišný od základného GPT-5 aj od GPT-5.4 — ide o osobitnú variantu optimalizovanú na cenu a multimodálnu priepustnosť, nie na maximálny výkon.）

1. Čo je na GPT-5 Turbo podstatné

Natívna multimodalita v jednom modeli
- model prijíma a generuje text, obrázky aj audio bez prepínania medzi endpointmi
- odstraňuje potrebu orchestrovať pipeline: GPT-4 → DALL·E → TTS — všetko v jedinom chat/completions volaní
Cenová pozícia
- lacnejší ako štandardný GPT-5, drahší ako GPT-4o mini
- cieľová skupina: produkčné aplikácie, kde záleží na nákladoch, ale potrebujete viac ako len text
Rýchlosť
- vyšší throughput ako GPT-5 standard pre textové úlohy
- pri generovaní obrázkov alebo audia je latencia vyššia ako pri čisto textovom volaní — treba to zohľadniť v UX

2. API identifikátor a základné parametre

Model ID:
- gpt-5-turbo
Podporované vstupné modalitá: text, obrázok (base64 alebo URL), audio (base64, formáty wav/mp3/ogg)
Podporované výstupné modalitá: text, obrázok, audio (podľa toho, čo si v requeste vyžiadaš)
Kontextové okno: 128K tokenov
Maximálny výstup: 16K tokenov (text); veľkosť obrázka závisí od zvoleného rozlíšenia (256×256 až 1792×1024)

（Ak nepotrebuješ obrazový alebo zvukový výstup, model ti vráti len text — multimodalita sa aktivuje len keď ju explicitne vyžiadaš v requeste.）

3. Tokenová ekonómia: obrázky a audio sa počítajú inak

Toto je kľúčová vec, ktorú treba pochopiť pred nasadením:

Textové tokeny — štandardné, rovnaké ako pri GPT-4 / GPT-5
Obrazové vstupné tokeny — počet závisí od rozlíšenia obrázka:
- malý obrázok (512×512): ~340 tokenov
- veľký obrázok (1792×1024): ~1700 tokenov
- detail: "low" parameter zníži spotrebu na fixných ~85 tokenov (nižšia kvalita analýzy)
Obrazové výstupné tokeny — generovaný obrázok sa fakturuje paušálne podľa rozlíšenia, nie počtom tokenov
Audio vstup: ~25 tokenov na sekundu zvuku
Audio výstup: fakturovaný podobne ako TTS — per sekunda vygenerovaného zvuku

（Pri produkčnom nasadení vždy monitorujte skutočnú spotrebu cez OpenAI usage dashboard — multimodálne requesty môžu byť výrazne drahšie ako vyzerá na prvý pohľad.）

4. Praktické použitia

Iterácie dizajnu

# Pseudokód: pošli wireframe, dostaneš späť upravenú verziu + komentár
response = client.chat.completions.create(
    model="gpt-5-turbo",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Uprav tento wireframe — pridaj navigačnú lištu hore a zmeň tlačidlo na zelené."},
            {"type": "image_url", "image_url": {"url": "data:image/png;base64,..."}}
        ]
    }],
    modalities=["text", "image"]
)

Výsledkom je textové vysvetlenie zmien + upravený obrázok v jednej odpovedi
Typické použitie: rýchle prototypovanie UI, feedback na mockupy

Videoscript + audio generovanie

# Pseudokód: z textu scenára vygeneruj hlasový komentár
response = client.chat.completions.create(
    model="gpt-5-turbo",
    messages=[{
        "role": "user",
        "content": "Prečítaj nasledujúci scenár hlasom novinárskeho moderátora: [scenár...]"
    }],
    modalities=["text", "audio"],
    audio={"voice": "nova", "format": "mp3"}
)
audio_bytes = base64.b64decode(response.choices[0].message.audio.data)

Multimodálny RAG (retrieval-augmented generation)

Vkladáte do kontextu naskenované dokumenty (PDF ako obrázky) aj textové časti naraz
Model dokáže porovnávať tabuľku z obrázka s textovými dátami v jedinom volaní
Eliminuje potrebu samostatného OCR kroku + textového modelu

5. Porovnanie: GPT-5 Turbo vs. samostatné pipeline vs. GPT-5 standard

Kritérium	GPT-5 Turbo	Samostatná pipeline (DALL·E + GPT-4 + TTS)	GPT-5 standard
Integračná zložitosť	Nízka	Vysoká	Nízka
Latencia (multimodál)	Stredná	Vysoká	Stredná
Cena (multimodál)	Stredná	Variabilná	Vyššia
Maximálny výkon	Stredný	Závisí od modelov	Najvyšší
Kontextová konzistencia	Výborná	Slabá (bez stavu medzi modelmi)	Výborná

（Samostatná pipeline má stále zmysel tam, kde potrebujete špecializovaný model pre každú modalitu — napr. DALL·E 4 pre kreatívnu umeleckú tvorbu. GPT-5 Turbo vyniká pri scenároch, kde je dôležitá kontextová konzistencia naprieč modalitami.）

6. Porovnanie GPT-5 Turbo vs. GPT-5.4

GPT-5.4 je model optimalizovaný pre náročné kognitívne úlohy (dlhé reťazce uvažovania, komplexná matematika, výskumné úlohy) — bez natívneho obrazového/zvukového výstupu
GPT-5 Turbo je optimalizovaný pre multimodálnu priepustnosť a náklady — nie pre maximálnu hĺbku uvažovania
Pre projekty, kde je potrebné aj uvažovanie aj multimodalita, zvažujte kombináciu: GPT-5.4 na reasoning, GPT-5 Turbo na generovanie výstupov

7. Obmedzenia a veci, na ktoré si dávať pozor

Vyššia latencia pri multimodálnych výstupoch
- Generovanie obrázka trvá rádovo sekundy — pre real-time UX je to problematické; riešenie: asynchrónne spracovanie, progress indikátory
Náklady môžu prekvapivo rásť
- Ak obrázky posielate v plnom rozlíšení, tokenová spotreba je výrazne vyššia — vždy downsizujte vstupy na skutočne potrebné rozlíšenie
Výstupné obrázky nie sú fotografická kvalita
- Turbo verzia neponúka rovnakú kreativitu ako DALL·E 4 — hodí sa skôr na funkčné a technické vizuály ako na umeleckú tvorbu
Audio výstup má obmedzené hlasy a jazyky
- Slovenčina je podporovaná, ale s nižšou prirodzenosťou ako angličtina — pre produkčný TTS v slovenčine porovnajte s alternatívami
Bez podpory videa (zatiaľ)
- GPT-5 Turbo neprijíma ani negeneruje video — to je stále doménou Sora API a samostatných pipeline

8. Ukážka: curl volanie s obrazovým vstupom

curl https://api.openai.com/v1/chat/completions \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-5-turbo",
    "modalities": ["text", "image"],
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "Zjednodušuj tento architektúrny diagram — odstráň nepodstatné komponenty."},
        {"type": "image_url", "image_url": {"url": "https://example.com/diagram.png", "detail": "high"}}
      ]
    }],
    "max_tokens": 1024
  }'

（Parameter detail: "high" zvyšuje kvalitu analýzy obrázka, ale aj tokenovú cenu. Pre väčšinu produkčných prípadov začínajte s "auto" a merajte výsledky.）

9. Kedy použiť GPT-5 Turbo (a kedy nie)

Použite GPT-5 Turbo, keď:
- potrebujete kombinovať text, obrázky alebo audio v jedinom workflow
- záleží vám na kontextovej konzistencii naprieč modalitami (model vidí všetko naraz)
- chcete zjednodušiť infraštruktúru — menej API volaní, menej orchestrácie
- riešite multimodálny RAG alebo dizajnové iterácie
Zvoľte iný model, keď:
- potrebujete maximálnu kvalitu obrázkov → DALL·E 4 cez Images API
- riešite náročné analytické úlohy bez multimediálnych výstupov → GPT-5.4 alebo GPT-5 standard
- potrebujete nízku latenciu pri čisto textových úlohách → GPT-4o mini alebo GPT-5 Turbo s modalities: ["text"]

Zhrnutie

GPT-5 Turbo (model ID: gpt-5-turbo) prináša natívnu multimodalitu — text, obrázky aj audio v jedinom API volaní.
Hlavná výhoda je zjednodušená integrácia a kontextová konzistencia oproti pipeline s viacerými modelmi.
Kľúčové veci sledovať pri nasadení: tokenová spotreba obrázkov, latencia multimodálnych výstupov a obmedzenia audio kvality pre slovenčinu.
Najlepšie sa uplatní v aplikáciách pre dizajnové iterácie, multimodálny RAG a tvorbu obsahu — nie ako náhrada za špecializované modely pre kreatívnu umeleckú tvorbu.