Google Cloud Run

(serverless kontajnery pre AI služby)

Google Cloud Run je služba od Google Cloud, ktorá ti umožní spustiť webovú aplikáciu alebo API zabalené v kontajneri bez toho, aby si riešil servery a škálovanie. V praxi je to veľmi pohodlný spôsob, ako nasadiť AI “mikroslužby” – napríklad endpoint na klasifikáciu, prepis textu, RAG gateway alebo webhook, ktorý volá iné AI služby.

1. Čo to je a prečo je to podstatné

Predstav si, že máš aplikáciu v kontajneri (Docker image) a chceš ju zverejniť ako URL. Pri tradičnom hostingu riešiš virtuálne stroje, load balancer, autoscaling, patchovanie, monitoring… Cloud Run to zoberie ako “balík” a urobí z neho službu, ktorú vie automaticky zapínať, vypínať a škálovať podľa dopytu.

* Serverless pre kontajnery: ty dodáš kontajner, platforma sa stará o infraštruktúru.
* Škálovanie podľa návštevnosti: keď príde viac requestov, pridajú sa inštancie; keď nič nechodí, vie to ísť až na nulu.
* Rýchle nasadenie: z buildnutého image spravíš bežiacu službu s URL za pár minút.
* Jeden model nasadenia pre všetko: nezáleží, či píšeš v Node, Pythone, Go alebo PHP – ak je to v kontajneri a vie to počúvať na porte, funguje to.
* Silné miesto pre “AI glue”: Cloud Run často hrá rolu lepidla medzi frontendom, databázou, eventami a AI (napr. Vertex AI / externé modely).

Pre AI je to podstatné najmä preto, že veľa užitočných AI riešení nie je “jeden veľký model”, ale sústava menších služieb: validácia vstupov, správa promptov, cache, práca s dokumentmi, vyhľadávanie, hodnotenie odpovedí, audit logy.

2. Technické detaily, ktoré ťa v praxi zaujímajú

Cloud Run je najlepší, keď rozmýšľaš v štýle: “mám HTTP službu, ktorá spracuje request a vráti odpoveď.” AI endpointy do toho typicky sedia: pošleš text, dostaneš JSON; pošleš dokument, dostaneš extrahované časti; pošleš otázku, dostaneš odpoveď (alebo streaming).

* Kontajner ako jednotka nasadenia: buildneš image (napr. cez Cloud Build/GitHub Actions), uložíš ho do registry a nasadíš ako službu.
* Revízie a traffic: každé nasadenie vytvorí novú revíziu a vieš deliť traffic medzi starú/novú verziu (užitočné na bezpečné rollouty).
* Concurrency: jedna inštancia môže obslúžiť viac requestov súčasne (dobré pre I/O a API gateway, citlivé pri CPU-bound AI).
* Škálovanie a limity: nastavíš si hranice (koľko inštancií min/max), a tým si vieš riadiť cenu aj stabilitu.
* Timeouty a dlhé requesty: pri AI je kľúčové vedieť, či robíš “krátke odpovede” alebo dlhšie generovanie/streaming – podľa toho navrhneš API (napr. async job + polling).
* Ephemeral disk: lokálne súbory v kontajneri ber ako dočasné; čo má prežiť, patrí do objektového úložiska alebo databázy.

Rýchly prehľad parametrov (orientačne):

Oblasť	Čo to znamená v praxi	Pre AI služby
Spustenie	Kontajner beží ako HTTP služba	ideálne pre inference API, gateway, webhooky
Škálovanie	automatické pridávanie/uberanie inštancií	zvláda špičky, ale rieš “cold start”
Concurrency	viac requestov na jednu inštanciu	super pre I/O, opatrne pri ťažkom CPU
Traffic split	rozdelenie návštevnosti medzi verzie	bezpečné nasadenie prompt/logic zmien
Identity & prístup	verejné alebo chránené endpointy	odporúčané chrániť interné AI endpointy
Integrácie	logy, monitoring, secrets, eventy	prakticky povinné pre produkciu

3. Dostupnosť: kde a ako to vieš použiť

Cloud Run nie je “appka”, ktorú si nainštaluješ. Je to cloudová služba, ktorú používaš cez konzolu, CLI alebo infra-as-code.

* Použitie cez web konzolu: rýchle prototypy, manuálne deploye, prehľad revízií a logov.
* Použitie cez CLI a API: automatizácia v CI/CD, opakovateľné nasadenia.
* Jazyková nezávislosť: rozhoduje kontajner, nie jazyk – môžeš miešať stacky podľa potreby.
* HTTP aj event-driven: okrem klasického API je bežné spúšťať spracovanie aj z eventov (napr. správa v queue, súbor v storage, cron).
* Cloud Run Jobs (batch): hodí sa na dávkové úlohy – napríklad preindexovanie dokumentov do vektorovej DB alebo nočné prepočty.

4. Ceny a licencie: čo reálne platíš

Cloud Run je komerčná cloudová služba. Typický model je “plať za to, čo reálne spotrebuješ” – podľa času CPU a pamäte, počtu requestov a sieťovej prevádzky.

* Účtovanie podľa spotreby: čas výpočtu + pridelená pamäť + requesty (konkrétny model sa môže líšiť podľa nastavení a regiónu).
* Free tier: zvyčajne existuje bezplatná úroveň, ale limity sa v čase menia – cenník je dostupný na oficiálnej stránke.
* Najväčší “žrút” je egress a zbytočný runtime: pri AI vie cena rásť, ak sťahuješ veľké dáta alebo držíš služby “teplé” bez využitia.
* Licencie: samotná služba je proprietárna; ty si prinášaš vlastný kód a vlastné knižnice (tie majú svoje licencie).

Prakticky: ak máš AI endpoint, ktorý väčšinu času nič nerobí a občas príde špička, Cloud Run býva finančne príjemný. Ak máš stabilný vysoký load 24/7 alebo potrebuješ špecifickú infra (napr. špeciálne akcelerátory), často sa oplatí porovnať aj iné možnosti nasadenia.

5. Bezpečnosť a súkromie: na čo si dať pozor

Pri AI službách je najčastejší problém nie “hacknutie kontajnera”, ale únik dát cez logy, zle nastavené prístupy alebo neúmyselné posielanie citlivých vstupov do externých služieb.

* IAM a servisné účty: každá služba môže bežať pod konkrétnou identitou – dávaj jej len minimálne potrebné oprávnenia.
* Privátny vs verejný endpoint: ak máš internú AI službu (napr. prompt router, RAG), nepublikuj ju verejne bez ochrany.
* Autentifikácia requestov: preferuj overenie identity (tokeny/identita volajúceho) pred “tajnou URL”.
* Secrets mimo kódu: API kľúče a prístupové údaje nedávaj do repa ani do image; používaj správu tajomstiev a rotáciu.
* Logovanie vstupov: pozor na to, čo loguješ – request body môže obsahovať osobné údaje, interné dokumenty, prompt šablóny.
* Regionálne spracovanie: vyber región vedome – kvôli latencii aj kvôli pravidlám okolo dát.

Praktické odporúčanie: pri AI si nastav interné pravidlo “čo sa môže logovať” a “čo nikdy”. A audituj, či sa to dodržiava (najmä pri debug logoch).

6. Praktické tipy a kedy to použiť

Cloud Run je výborný vtedy, keď chceš rýchlo zmeniť nápad na URL, ktoré je schopné prežiť aj reálnu prevádzku. Pri AI to často znamená: “mám pipeline a potrebujem ju zverejniť ako službu”.

* AI gateway / orchestrácia: Cloud Run služba prijme request, spraví validáciu, zavolá model (napr. cez API), post-process a vráti výsledok.
* RAG servis: endpoint, ktorý rieši chunking, embeddingy, vyhľadávanie a skladanie kontextu – model voláš až na konci.
* Webhooky a automatizácie: spracovanie eventov (nový súbor, správa v queue) a spúšťanie AI workflow.
* A/B testovanie promptov: traffic split medzi revíziami je praktický spôsob, ako porovnať nové prompt šablóny alebo logiku.
* “Thin” inference bez vlastného modelu: ak nehostuješ model u seba, ale voláš externý, Cloud Run je často ideálny.

A kedy nie:

* Dlhé ťažké výpočty bez prestávky: ak je to skôr batch, použi Jobs alebo iný typ compute.
* Veľké modely, ktoré sa dlho načítavajú: “cold start” bolí najmä pri veľkých artefaktoch; niekedy je lepšia architektúra, kde sa model neťahá pri štarte.
* Extrémne stabilný 24/7 load: pri veľmi predvídateľnej prevádzke môže byť výhodnejší iný typ nasadenia.

Tipy, ktoré zvyknú ušetriť nervy aj peniaze:

* Štíhly image: menší kontajner = rýchlejší štart a menej problémov pri deployi.
* Zvládni “graceful shutdown”: pri škálovaní sa inštancie vypínajú; spracuj ukončenie tak, aby si nestratil rozrobenú prácu.
* Idempotencia: pri eventoch a retry mechanizmoch sa môže úloha spustiť viac ráz – navrhni to tak, aby to neublížilo.
* Cache tam, kde dáva zmysel: pri RAG a embeddings je cache často najlacnejší “performance boost”.
* Monitoring latencie: pri AI je latencia používateľský zážitok; sleduj p95/p99, nie len priemer.

Zhrnutie

* Cloud Run je najjednoduchší spôsob, ako spraviť z kontajnera škálovateľnú URL službu – bez správy serverov a s automatickým škálovaním.
* Pre AI sa hodí ako “lepidlo” medzi aplikáciou a modelmi: gateway, RAG servis, webhooky, post-processing, bezpečnostná vrstva.
* Najčastejšie riziká sú zlé prístupy a únik dát cez logy – chráň endpointy, používaj minimálne oprávnenia a dávaj si pozor na to, čo loguješ.
* Najväčšie praktické témy sú cold start, timeouts a návrh API – pri dlhších úlohách radšej voľ async dizajn alebo Jobs než jednu dlhú HTTP požiadavku.