Nano Banana 2 — nová generácia obrazového AI od Google
Nano Banana 2 je druhá generácia obrazového AI modelu od Google DeepMind, ktorý je súčasťou ekosystému Gemini. Nadväzuje na pôvodné modely Nano Banana Flash a Nano Banana Pro a prináša výrazné vylepšenia v kvalite generovania, editovania a porozumení kontextu obrázkov. „Nano Banana“ začal ako interné kódové meno, ktoré sa ujalo medzi používateľmi natoľko, že ho Google začal používať aj navonok.
1. Čo je Nano Banana 2
- Typ modelu: multimodálny obrazový model (text-to-image, image-to-image editing)
- Vývojár: Google DeepMind
- Integrácia: natívne v Google Gemini, Google AI Studio, Vertex AI
- Predchodcovia: Nano Banana Flash (rýchly), Nano Banana Pro (kvalitný)
Nano Banana 2 zlučuje výhody oboch predchádzajúcich modelov — je rýchly ako Flash a kvalitný ako Pro, s oveľa lepším porozumením textových promptov.
2. Ako sa líši od bežného generátora obrázkov
Klasické difúzne generátory robia jeden „skok“ z textu na obrázok. Nano Banana 2 je hlbšie prepojený s jazykovým modelom Gemini, vďaka čomu:
- rozumie kontextu konverzácie (nadviaže na predošlé správy),
- dodržiava inštrukcie po krokoch namiesto generovania od nuly,
- vie zachovať identitu subjektu medzi viacerými obrázkami.
Inými slovami: nie je to len „prompt → obrázok“, ale konverzačný editor obrázkov poháňaný jazykovým modelom.
3. Kľúčové vylepšenia oproti prvej generácii
| Vlastnosť | Nano Banana 1 (Flash/Pro) | Nano Banana 2 |
|---|---|---|
| Text v obrázkoch | Často chybný, nečitateľný | Presný, viacjazyčný |
| Multi-turn editovanie | Základné (2–3 kroky) | Pokročilé (10+ krokov s konzistenciou) |
| Fotorealizmus | Dobrý | Takmer nerozoznateľný od fotky |
| Rýchlosť | Flash rýchly, Pro pomalší | Jednotná, rýchla aj v najvyššej kvalite |
| Rozlíšenie | Do 1024×1024 | Až 2048×2048 natívne |
| Konzistencia postáv | Nestabilná | Stabilná identita naprieč generáciami |
4. Hlavné schopnosti
Generovanie z textu (text-to-image)
Vytvára vysokokvalitné obrázky z textového popisu. Rozumie komplexným promptom vrátane priestorových vzťahov, štýlov a detailov.
Konverzačné editovanie (multi-turn)
Najsilnejšia vlastnosť — postupné dolaďovanie obrázka cez viac krokov:
- „Zmeň pozadie na západ slnka.“
- „Pridaj okuliare.“
- „Urob to v štýle oil painting.“
Model si pamätá kontext a zachováva konzistenciu medzi krokmi.
Referenčné obrázky
Nahráš vlastný obrázok a model ho použije ako základ pre úpravy alebo variácie.
Text v obrázkoch
Jedno z najväčších zlepšení — presné vykreslenie textu vrátane diakritiky a viacerých jazykov (slabina väčšiny starších generátorov).
5. Príklad: generovanie cez API
V Google AI Studio / Gemini API sa obrázok vyžiada ako bežná multimodálna odpoveď:
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
resp = client.models.generate_content(
model="gemini-image", # rodina Nano Banana
contents="Vygeneruj logo kaviarne: minimalistická šálka, "
"neónové linky, tmavé pozadie, text 'NB2 Café'",
)
# odpoveď obsahuje vygenerovaný obrázok ako inline dáta
for part in resp.candidates[0].content.parts:
if part.inline_data:
open("logo.png", "wb").write(part.inline_data.data)
Konverzačná úprava funguje tak, že do ďalšieho volania pošleš predchádzajúci obrázok + novú inštrukciu.
6. Kde sa používa
- Google Gemini — priamo v konverzácii („vygeneruj logo“, „uprav tento obrázok“).
- Google AI Studio — pre vývojárov, API prístup.
- Vertex AI — enterprise riešenia s fine-tune možnosťami.
- Google Workspace — integrácia do Slides/Docs pre generovanie ilustrácií.
7. Bezpečnosť a zodpovednosť
- SynthID watermarking — každý obrázok obsahuje neviditeľný vodoznak na detekciu AI pôvodu.
- Safety filtre — odmietnutie NSFW, deepfakes reálnych osôb, násilia.
- Provenance metadata — C2PA/EXIF označenie AI pôvodu.
- Red-teaming — rozsiahle testovanie pred nasadením.
SynthID je dôležitý kontext aktuálnej debaty o dôveryhodnosti médií — pomáha odlíšiť AI obrázky od reálnych fotografií, hoci nie je nepriestrelný.
8. Porovnanie s konkurenciou
| Model | Spoločnosť | Silná stránka |
|---|---|---|
| Nano Banana 2 | Multi-turn editing, integrácia s Gemini | |
| DALL·E 4 | OpenAI | Kreatívne generovanie, integrácia s ChatGPT |
| FLUX Ultra | Black Forest Labs | Open-source, fotorealizmus |
| Midjourney v7 | Midjourney | Umelecký štýl, komunita |
| Ideogram 3 | Ideogram | Text rendering v obrázkoch |
Pod kapotou väčšina týchto modelov rieši zarovnanie textu a obrazu podobne ako CLIP — teda cez spoločný priestor reprezentácií.
9. Praktické tipy do promptov
- Buď konkrétny v atribútoch: svetlo, štýl, kompozícia, farby.
- Edituj po krokoch: namiesto jedného obrieho promptu zadávaj malé úpravy — model si drží konzistenciu.
- Využi referenciu: keď chceš zachovať postavu/produkt, prilož referenčný obrázok.
- Text v obrázku zadaj v úvodzovkách: „nápis 'OTVORENÉ'“ zvyšuje šancu na presné vykreslenie.
10. Záver
Nano Banana 2 predstavuje veľký krok vpred v generovaní obrázkov. Kombinácia rýchlosti, kvality a konverzačného editovania z neho robí jeden z najkomplexnejších obrazových modelov na trhu. Vďaka hlbokej integrácii do ekosystému Gemini je prístupný širokému okruhu používateľov — od bežných až po enterprise vývojárov.
Zhrnutie
- Nano Banana 2 je obrazový model Google DeepMind v rodine Gemini.
- Vyniká multi-turn editovaním, presným textom v obrázkoch a konzistenciou postáv.
- Dostupný v Gemini, AI Studio a Vertex AI; obrázky nesú SynthID vodoznak.
- Konceptuálne stavia na zarovnaní textu a obrazu podobnom CLIP.
Zdroje:
- Google DeepMind — deepmind.google
- Google AI Studio — aistudio.google.com
- Vertex AI — cloud.google.com/vertex-ai