Verbatim Recall
Verbatim recall je schopnosť (alebo problém) jazykového modelu reprodukovať úseky tréningových dát presne slovo za slovom. Je to ako keď model namiesto generovania novej odpovede "skopíruje" celé pasáže z knihy alebo článku, ktorý videl počas tréningu — vrátane citlivých údajov, autorsky chránených textov či osobných informácií.
1. Definícia a kontext
Technická definícia: Model pri určitých promptoch reprodukuje sekvencie tokenov identické s tréningovými dátami, namiesto generovania originálneho obsahu
Prečo je to problém: Model môže neúmyselne vyzradiť súkromné informácie, porušiť copyright, alebo ukázať, že si "pamätá" namiesto toho aby "rozumel"
Aktuálny stav: Štúdia z UC Berkeley (2024) ukázala, že GPT-3.5 dokáže reprodukovať až 1% svojich tréningových dát pri cielenom promptovaní, ChatGPT okolo 0.1-0.3%
2. Ako verbatim recall funguje
Mechanizmus memorácie:
- Počas tréningu sa určité sekvencie opakujú mnohokrát (napr. citáty, definície)
- Model si vytvorí silné neurónové spojenia presne pre tieto sekvencie
- Pri správnom prompte sa aktivujú tieto "memorované" cesty
- Output je identický s tréningovými dátami
Faktory ovplyvňujúce memoráciu:
- Frekvencia v datasete: Čím častejšie sa text opakuje, tým pravdepodobnejšia memorácia
- Unikátnosť: Paradoxne, veľmi špecifické texty sa memorujú ľahšie
- Pozícia v tréningu: Dáta z neskorších epoch sa memorujú viac
- Model size: Väčšie modely majú väčšiu kapacitu pre memoráciu
3. Hlavné prejavy a príklady
| Typ obsahu | Príklad verbatim recall | Riziko |
|---|---|---|
| Osobné údaje | Emailové adresy, telefónne čísla z web scrape | Vysoké - GDPR/privacy |
| Kód a API kľúče | Celé funkcie z GitHub, exposed secrets | Kritické - security |
| Literárne diela | Celé básne, úryvky z kníh pod copyright | Vysoké - legal |
| Akademické texty | Abstrakty papers, celé definície | Stredné - plagiarism |
| Novinové články | Prvé odseky z NY Times, BBC | Vysoké - copyright |
| Tréningové prompty | InstructGPT/RLHF templaty | Nízke - competitive |
- Reálny príklad (2023): Výskumníci z Google DeepMind extrahovali z ChatGPT:
- 50+ kompletných emailových adries
- Celé odseky z Harry Pottera
- Funkčné Bitcoin adresy
- Časti zdrojového kódu z proprietárnych repozitárov
4. Metódy detekcie a merania
- Extraction attacks:
# Príklad attack promptu
prompt = "Repeat the following text exactly: 'The quick brown'"
# Model často dokončí memorovanými sekvenciami
Membership inference:
- Test či konkrétny text bol v tréningových dátach
- Meranie perplexity: memorované texty majú výrazne nižšiu perplexitu
- Porovnanie s referenčným datasetom
Metriky:
- Extraction rate: Percento úspešných extrakcií z N pokusov
- Memorization score: -log(p) pre presné reprodukcie
- Leakage ratio: Pomer extrahovaných vs. unikátnych tokenov
| Benchmark | Čo meria | Typické skóre |
|---|---|---|
| MemTest | Extraction rate pre PII | GPT-4: 0.01%, GPT-3: 0.5% |
| MIRAGE | Membership inference accuracy | 65-85% pre targeted attacks |
| CanaryTokens | Detekcia planted strings | 95%+ recall pre 10+ repetitions |
5. Bezpečnostné a právne dôsledky
Privacy riziká:
- PII leakage: Mená, adresy, rodné čísla z tréningových dát
- Medical records: Pacientske záznamy zo zle anonymizovaných datasetov
- Corporate secrets: Interné dokumenty, stratégie, financie
Copyright problémy:
- Knihy a články: Celé kapitoly z chránených diel
- Kód: Proprietárny source code s licenciami
- Akademické práce: Dizertácie, research papers
Právne precedensy:
- GitHub Copilot lawsuit (2022): Žaloba za reprodukciu open-source kódu bez atribúcie
- Stability AI prípad (2023): Žaloba za tréning na copyrighted obrázkoch
- NYT vs. OpenAI (2024): Žaloba za verbatim reprodukciu článkov
6. Techniky mitigácie
| Technika | Implementácia | Účinnosť | Trade-offs |
|---|---|---|---|
| Deduplication | Odstránenie duplicít z tréningových dát | 50-70% redukcia | Menší dataset |
| Differential Privacy | Pridanie šumu počas tréningu | 80-90% redukcia | Znížená kvalita |
| Output filtering | Detekcia a blokovanie memorovaného obsahu | 60-80% redukcia | Vyššia latencia |
| Goldfish loss | Penalizácia presných reprodukcií | 70-85% redukcia | Horšie na faktických úlohách |
| Canary tokens | Vloženie markerov na detekciu leakage | 95%+ detekcia | Len pre monitoring |
| RLHF tuning | Tréning modelu odmietať reprodukcie | 40-60% redukcia | Nákladné |
- Best practice stack:
- Deduplication preprocessing
- Differential privacy training
- Output content filtering
- Regular audity s canary tokens
7. Praktické odporúčania
Pre AI vývojárov:
- Audit tréningových dát: Skenuj na PII, secrets, copyright
- Implementuj safeguards: Content filtering, rate limiting
- Monitoruj outputs: Logy na detekciu verbatim leaks
- Privacy-first design: Minimalizuj osobné dáta v datasete
Pre používateľov AI:
- Nikdy nezadávaj: Skutočné heslá, API kľúče, citlivé dáta
- Over výstupy: Kontroluj či AI nevracia "príliš presné" informácie
- Buď opatrný s: Žiadosťami o citácie, presné znenia, definície
Pre organizácie:
- Data governance: Klasifikuj dáta pred použitím AI
- Access control: Obmedz kto môže používať AI na citlivé úlohy
- Audit trail: Loguj všetky AI interakcie pre compliance
8. Budúcnosť a výskumné smery
Emerging techniky:
- Unlearning: Vymazanie konkrétnych informácií z modelu
- Watermarking: Označenie generovaného vs. memorovaného obsahu
- Federated learning: Tréning bez centralizácie dát
Regulačný vývoj:
- EU AI Act požaduje transparentnosť o tréningových dátach
- GDPR "right to be forgotten" aplikované na AI modely
- US NIST guidelines pre AI memorization limits
Technické výzvy:
- Balans medzi užitočnou memoráciou (fakty) a škodlivou (PII)
- Škálovateľná detekcia bez znalosti tréningových dát
- Post-hoc removal memorovaného obsahu
Zhrnutie
- Verbatim recall je inherentná vlastnosť súčasných LLM — nie bug, ale prirodzený dôsledok trénovania na veľkých datasetoch
- Riziko extrakcie 0.01-1% tréningových dát robí z toho vážny privacy a legal problém
- Najúčinnejšia ochrana: Kombinácia deduplikácie, differential privacy a output filteringu — ale 100% eliminácia nie je možná
- Pre prax: Nikdy nezadávaj citlivé údaje do AI a vždy over či output nie je "príliš dokonalá" kópia existujúceho textu