Nano Banana 2 — nová generácia obrazového AI od Google

Nano Banana 2 je druhá generácia obrazového AI modelu od Google DeepMind, ktorý je súčasťou ekosystému Gemini. Nadväzuje na pôvodné modely Nano Banana Flash a Nano Banana Pro a prináša výrazné vylepšenia v kvalite generovania, editovania a porozumení kontextu obrázkov. „Nano Banana“ začal ako interné kódové meno, ktoré sa ujalo medzi používateľmi natoľko, že ho Google začal používať aj navonok.


1. Čo je Nano Banana 2

  • Typ modelu: multimodálny obrazový model (text-to-image, image-to-image editing)
  • Vývojár: Google DeepMind
  • Integrácia: natívne v Google Gemini, Google AI Studio, Vertex AI
  • Predchodcovia: Nano Banana Flash (rýchly), Nano Banana Pro (kvalitný)

Nano Banana 2 zlučuje výhody oboch predchádzajúcich modelov — je rýchly ako Flash a kvalitný ako Pro, s oveľa lepším porozumením textových promptov.


2. Ako sa líši od bežného generátora obrázkov

Klasické difúzne generátory robia jeden „skok“ z textu na obrázok. Nano Banana 2 je hlbšie prepojený s jazykovým modelom Gemini, vďaka čomu:

  • rozumie kontextu konverzácie (nadviaže na predošlé správy),
  • dodržiava inštrukcie po krokoch namiesto generovania od nuly,
  • vie zachovať identitu subjektu medzi viacerými obrázkami.

Inými slovami: nie je to len „prompt → obrázok“, ale konverzačný editor obrázkov poháňaný jazykovým modelom.


3. Kľúčové vylepšenia oproti prvej generácii

Vlastnosť Nano Banana 1 (Flash/Pro) Nano Banana 2
Text v obrázkoch Často chybný, nečitateľný Presný, viacjazyčný
Multi-turn editovanie Základné (2–3 kroky) Pokročilé (10+ krokov s konzistenciou)
Fotorealizmus Dobrý Takmer nerozoznateľný od fotky
Rýchlosť Flash rýchly, Pro pomalší Jednotná, rýchla aj v najvyššej kvalite
Rozlíšenie Do 1024×1024 Až 2048×2048 natívne
Konzistencia postáv Nestabilná Stabilná identita naprieč generáciami

4. Hlavné schopnosti

Generovanie z textu (text-to-image)

Vytvára vysokokvalitné obrázky z textového popisu. Rozumie komplexným promptom vrátane priestorových vzťahov, štýlov a detailov.

Konverzačné editovanie (multi-turn)

Najsilnejšia vlastnosť — postupné dolaďovanie obrázka cez viac krokov:

  • „Zmeň pozadie na západ slnka.“
  • „Pridaj okuliare.“
  • „Urob to v štýle oil painting.“

Model si pamätá kontext a zachováva konzistenciu medzi krokmi.

Referenčné obrázky

Nahráš vlastný obrázok a model ho použije ako základ pre úpravy alebo variácie.

Text v obrázkoch

Jedno z najväčších zlepšení — presné vykreslenie textu vrátane diakritiky a viacerých jazykov (slabina väčšiny starších generátorov).


5. Príklad: generovanie cez API

V Google AI Studio / Gemini API sa obrázok vyžiada ako bežná multimodálna odpoveď:

from google import genai

client = genai.Client(api_key="GEMINI_API_KEY")

resp = client.models.generate_content(
    model="gemini-image",  # rodina Nano Banana
    contents="Vygeneruj logo kaviarne: minimalistická šálka, "
             "neónové linky, tmavé pozadie, text 'NB2 Café'",
)

# odpoveď obsahuje vygenerovaný obrázok ako inline dáta
for part in resp.candidates[0].content.parts:
    if part.inline_data:
        open("logo.png", "wb").write(part.inline_data.data)

Konverzačná úprava funguje tak, že do ďalšieho volania pošleš predchádzajúci obrázok + novú inštrukciu.


6. Kde sa používa

  • Google Gemini — priamo v konverzácii („vygeneruj logo“, „uprav tento obrázok“).
  • Google AI Studio — pre vývojárov, API prístup.
  • Vertex AI — enterprise riešenia s fine-tune možnosťami.
  • Google Workspace — integrácia do Slides/Docs pre generovanie ilustrácií.

7. Bezpečnosť a zodpovednosť

  • SynthID watermarking — každý obrázok obsahuje neviditeľný vodoznak na detekciu AI pôvodu.
  • Safety filtre — odmietnutie NSFW, deepfakes reálnych osôb, násilia.
  • Provenance metadata — C2PA/EXIF označenie AI pôvodu.
  • Red-teaming — rozsiahle testovanie pred nasadením.

SynthID je dôležitý kontext aktuálnej debaty o dôveryhodnosti médií — pomáha odlíšiť AI obrázky od reálnych fotografií, hoci nie je nepriestrelný.


8. Porovnanie s konkurenciou

Model Spoločnosť Silná stránka
Nano Banana 2 Google Multi-turn editing, integrácia s Gemini
DALL·E 4 OpenAI Kreatívne generovanie, integrácia s ChatGPT
FLUX Ultra Black Forest Labs Open-source, fotorealizmus
Midjourney v7 Midjourney Umelecký štýl, komunita
Ideogram 3 Ideogram Text rendering v obrázkoch

Pod kapotou väčšina týchto modelov rieši zarovnanie textu a obrazu podobne ako CLIP — teda cez spoločný priestor reprezentácií.


9. Praktické tipy do promptov

  • Buď konkrétny v atribútoch: svetlo, štýl, kompozícia, farby.
  • Edituj po krokoch: namiesto jedného obrieho promptu zadávaj malé úpravy — model si drží konzistenciu.
  • Využi referenciu: keď chceš zachovať postavu/produkt, prilož referenčný obrázok.
  • Text v obrázku zadaj v úvodzovkách: „nápis 'OTVORENÉ'“ zvyšuje šancu na presné vykreslenie.

10. Záver

Nano Banana 2 predstavuje veľký krok vpred v generovaní obrázkov. Kombinácia rýchlosti, kvality a konverzačného editovania z neho robí jeden z najkomplexnejších obrazových modelov na trhu. Vďaka hlbokej integrácii do ekosystému Gemini je prístupný širokému okruhu používateľov — od bežných až po enterprise vývojárov.


Zhrnutie

  • Nano Banana 2 je obrazový model Google DeepMind v rodine Gemini.
  • Vyniká multi-turn editovaním, presným textom v obrázkoch a konzistenciou postáv.
  • Dostupný v Gemini, AI Studio a Vertex AI; obrázky nesú SynthID vodoznak.
  • Konceptuálne stavia na zarovnaní textu a obrazu podobnom CLIP.

Zdroje:

  • Google DeepMind — deepmind.google
  • Google AI Studio — aistudio.google.com
  • Vertex AI — cloud.google.com/vertex-ai