AI Red Teaming: Bezpečnostné testovanie umelej inteligencie
AI red teaming je systematická prax, pri ktorej tímy ľudí — alebo samotné AI modely — aktívne hľadajú spôsoby, ako prinútiť AI systémy správať sa nebezpečne, neeticky alebo mimo zamýšľaných hraníc. V dobe, keď modely rozhodujú o zdravotnej starostlivosti, právnych analýzach či riadení infraštruktúry, sa stala nevyhnutnou súčasťou bezpečného nasadenia.
1. Čo je AI Red Teaming a odkiaľ pochádza
Pojem „red team" pochádza z vojenskej terminológie — označoval skupinu, ktorá simulovala nepriateľa s cieľom odhaliť slabiny vlastnej obrany. Kybernetická bezpečnosť si tento model prevzala pre penetračné testovanie. AI red teaming je ďalšou evolúciou: namiesto sieťovej infraštruktúry sa testuje správanie jazykového modelu alebo celého AI systému.
V kontexte AI ide o zámerné, štrukturované pokusy o:
- Elicitation — vylákať zo modelu informácie alebo výstupy, ktoré by mal odmietnuť (návody na výrobu zbraní, osobné údaje, dezinformácie).
- Jailbreaking — obísť zabudované bezpečnostné filtre pomocou špeciálne navrhnutých promptov.
- Overreliance testovanie — overiť, či model dôveryhodne odmietne situácie, kde ho používateľ neopodstatnene nasleduje.
- Robustnosť voči manipulácii — identifikovať, kedy model podľahne sociálnemu inžinierstvu alebo klamlivým predpokladom v otázke.
Výsledkom red teamingu nie je len zoznam slabín — je to vstup pre tréning, úpravy systémového promptu, zmeny guardrailov a nastavenie politík nasadenia.
2. Ako red teaming v praxi funguje
Red teaming nie je jediný test — je to iteratívny proces, ktorý prebieha vo viacerých fázach a zahŕňa rôznych aktérov.
Fáza 1: Definícia hrozieb (threat modeling) Tím najprv identifikuje, čo model robí, kto ho bude používať a aké sú reálne rizikové scenáre. Medicínsky asistent má iné hrozby ako chatbot pre e-commerce.
Fáza 2: Manuálne testovanie Ľudskí red teameri — odborníci na bezpečnosť, psychológovia, lingvisti, doménoví experti — systematicky skúšajú stovky scenárov. Testujú priame otázky, nepriame obchádzanie, roleplaying prompty, vnorené inštrukcie a multi-turn manipulácie.
Fáza 3: Automatizované škálovanie Manuálne testy pokryjú desiatky scenárov; automatizácia tisíce. Nástroje ako Garak, PyRIT (Microsoft) alebo vlastné harnessy laboratórií generujú variácie úspešných útokov, testujú na jazykových mutáciách a hodnotia výsledky pomocou ďalšieho modelu (LLM-as-a-Judge).
Fáza 4: Syntéza a remediation Nálezy sa triedia podľa závažnosti. Kritické slabiny idú priamo do tréningového pipeline — model sa doučí odmietať problematické vzory cez RLHF alebo DPO. Nízko závažné nálezy môžu byť riešené na úrovni systémového promptu alebo post-processingového filtra.
3. Techniky a nástroje
| Technika | Popis | Kto ju používa |
|---|---|---|
| GCG (Greedy Coordinate Gradient) | Automatické generovanie adversariálnych sufixov, ktoré obchádzajú bezpečnostné filtre | Akademický výskum, Anthropic |
| AutoDAN | Evolučný algoritmus generujúci čitateľné jailbreaky | CMU, Stanford |
| PAIR (Prompt Automatic Iterative Refinement) | Model útočník vs. model obeť — iteratívne zdokonaľovanie promptu | Jailbreaking benchmark |
| Many-Shot Jailbreaking | Exploitovanie dlhého kontextu — stovky exemplárov správania pred skutočnou otázkou | Anthropic (2024) |
| Crescendo | Multi-turn konverzácia, ktorá postupne eskaluje až k zakázanému obsahu | Microsoft |
| PyRIT | Open-source Python framework pre systematické AI red teaming | Microsoft |
| Garak | CLI nástroj pre LLM vulnerability scanning | Leroy Hood Institute / komunita |
Každá technika testuje iný vektor útoku — niektoré sú syntaktické (zmena formátu), iné sémantické (zmena kontextu) a ďalšie procedurálne (rozloženie útoku cez viacero správ).
4. Red Teaming v praxi — čo odhalili laboratóriá
Veľké AI laboratóriá dnes zverejňujú výsledky red teamingu ako súčasť „system cards" alebo správ o bezpečnosti modelov.
Anthropic pred vydaním každého modelu robí interný red teaming aj externý (tretie strany, vrátane vládnych agentúr). Pred vydaním Claude 3 Opus odhalili, že model za určitých podmienok dokázal poskytnúť čiastkové informácie o syntéze chemických látok — výsledok bol zahrnutý do tréningového procesu.
OpenAI pri GPT-4 najala niekoľko desiatok externých expertov vrátane bezpečnostných výskumníkov a psychológov. Zistili okrem iného, že model mal tendenciu „súhlasiť" s nepravdivými premisami v otázkach, čo viedlo k zvýšeniu tréningu na odmietanie klamlivých vstupov.
Google DeepMind v správe k Gemini Ultra dokumentoval scenáre, kde model pri dlhých konverzáciách postupne „zabudol" na bezpečnostné inštrukcie zo systémového promptu — problém conhecido ako context drift (v katalógu samostatný článok).
Pre organizácie nasadzujúce hotové modely cez API platí odporúčanie NIST AI RMF: pred nasadením v kritickom prostredí urobiť minimálne základný domain-specific red teaming — generické testy výrobcu nepokrývajú špecifiká konkrétneho nasadenia.
5. Limity red teamingu a čo príde ďalej
Red teaming nie je dokonalá ochrana — má viacero zásadných obmedzení:
Priestor útokov je nekonečný. Jazyk je kreatívny. Každý nový model prináša nové správanie a tým aj nové vektory útoku. Red teameri vždy bežia za útočníkmi, nie pred nimi.
Adversariálna robustnosť nerovná sa bezpečnosť. Model, ktorý odolá všetkým testovaným jailbrreakom, môže stále zlyhávať na scenároch, na ktoré sa nikto nepýtal. Testovanie je nevyhnutne vzorkové.
Škálovanie mení správanie. Väčšie modely sú zároveň schopnejšie obísť slabé filtre a zároveň lepšie rozumejú nuancii — red teaming z predchádzajúcej verzie negarantuje nič pre nasledujúcu.
Automatizácia má biasy. Keď model testuje sám seba (alebo sesterský model), zdieľa slepé uhly. Ľudská kreativita stále objavuje vektory, ktoré automatizácia prehliadne.
Budúcnosť smeruje k continuous red teaming — nie jednorazovému auditu pred vydaním, ale priebežnému monitorovaniu v produkcii, kde reálne interakcie slúžia ako vstup pre ďalšie kolo testovania. Kombinácia ľudských red teamov, automatizovaných harnessov a interpretability nástrojov (ako sparse autoencoders) sľubuje hlbšie pochopenie toho, prečo model zlyhá — nielen kedy.
Zhrnutie: AI red teaming je dnes štandard zodpovedného vývoja modelov — systematické hľadanie slabín pred tým, než ich nájde niekto so zlými úmyslami. Ako sa AI systémy stávajú autonómnejšími a kritickejšími, red teaming sa mení z dobrovoľnej praxe na regulatórnu požiadavku.