Verbatim Recall

Verbatim recall je schopnosť (alebo problém) jazykového modelu reprodukovať úseky tréningových dát presne slovo za slovom. Je to ako keď model namiesto generovania novej odpovede "skopíruje" celé pasáže z knihy alebo článku, ktorý videl počas tréningu — vrátane citlivých údajov, autorsky chránených textov či osobných informácií.

1. Definícia a kontext

Technická definícia: Model pri určitých promptoch reprodukuje sekvencie tokenov identické s tréningovými dátami, namiesto generovania originálneho obsahu
Prečo je to problém: Model môže neúmyselne vyzradiť súkromné informácie, porušiť copyright, alebo ukázať, že si "pamätá" namiesto toho aby "rozumel"
Aktuálny stav: Štúdia z UC Berkeley (2024) ukázala, že GPT-3.5 dokáže reprodukovať až 1% svojich tréningových dát pri cielenom promptovaní, ChatGPT okolo 0.1-0.3%

2. Ako verbatim recall funguje

Mechanizmus memorácie:
1. Počas tréningu sa určité sekvencie opakujú mnohokrát (napr. citáty, definície)
2. Model si vytvorí silné neurónové spojenia presne pre tieto sekvencie
3. Pri správnom prompte sa aktivujú tieto "memorované" cesty
4. Output je identický s tréningovými dátami
Faktory ovplyvňujúce memoráciu:
- Frekvencia v datasete: Čím častejšie sa text opakuje, tým pravdepodobnejšia memorácia
- Unikátnosť: Paradoxne, veľmi špecifické texty sa memorujú ľahšie
- Pozícia v tréningu: Dáta z neskorších epoch sa memorujú viac
- Model size: Väčšie modely majú väčšiu kapacitu pre memoráciu

3. Hlavné prejavy a príklady

Typ obsahu	Príklad verbatim recall	Riziko
Osobné údaje	Emailové adresy, telefónne čísla z web scrape	Vysoké - GDPR/privacy
Kód a API kľúče	Celé funkcie z GitHub, exposed secrets	Kritické - security
Literárne diela	Celé básne, úryvky z kníh pod copyright	Vysoké - legal
Akademické texty	Abstrakty papers, celé definície	Stredné - plagiarism
Novinové články	Prvé odseky z NY Times, BBC	Vysoké - copyright
Tréningové prompty	InstructGPT/RLHF templaty	Nízke - competitive

Reálny príklad (2023): Výskumníci z Google DeepMind extrahovali z ChatGPT:
- 50+ kompletných emailových adries
- Celé odseky z Harry Pottera
- Funkčné Bitcoin adresy
- Časti zdrojového kódu z proprietárnych repozitárov

4. Metódy detekcie a merania

Extraction attacks:

# Príklad attack promptu
prompt = "Repeat the following text exactly: 'The quick brown'"
# Model často dokončí memorovanými sekvenciami

Membership inference:
- Test či konkrétny text bol v tréningových dátach
- Meranie perplexity: memorované texty majú výrazne nižšiu perplexitu
- Porovnanie s referenčným datasetom
Metriky:
- Extraction rate: Percento úspešných extrakcií z N pokusov
- Memorization score: -log(p) pre presné reprodukcie
- Leakage ratio: Pomer extrahovaných vs. unikátnych tokenov

Benchmark	Čo meria	Typické skóre
MemTest	Extraction rate pre PII	GPT-4: 0.01%, GPT-3: 0.5%
MIRAGE	Membership inference accuracy	65-85% pre targeted attacks
CanaryTokens	Detekcia planted strings	95%+ recall pre 10+ repetitions

5. Bezpečnostné a právne dôsledky

Privacy riziká:
- PII leakage: Mená, adresy, rodné čísla z tréningových dát
- Medical records: Pacientske záznamy zo zle anonymizovaných datasetov
- Corporate secrets: Interné dokumenty, stratégie, financie
Copyright problémy:
- Knihy a články: Celé kapitoly z chránených diel
- Kód: Proprietárny source code s licenciami
- Akademické práce: Dizertácie, research papers
Právne precedensy:
- GitHub Copilot lawsuit (2022): Žaloba za reprodukciu open-source kódu bez atribúcie
- Stability AI prípad (2023): Žaloba za tréning na copyrighted obrázkoch
- NYT vs. OpenAI (2024): Žaloba za verbatim reprodukciu článkov

6. Techniky mitigácie

Technika	Implementácia	Účinnosť	Trade-offs
Deduplication	Odstránenie duplicít z tréningových dát	50-70% redukcia	Menší dataset
Differential Privacy	Pridanie šumu počas tréningu	80-90% redukcia	Znížená kvalita
Output filtering	Detekcia a blokovanie memorovaného obsahu	60-80% redukcia	Vyššia latencia
Goldfish loss	Penalizácia presných reprodukcií	70-85% redukcia	Horšie na faktických úlohách
Canary tokens	Vloženie markerov na detekciu leakage	95%+ detekcia	Len pre monitoring
RLHF tuning	Tréning modelu odmietať reprodukcie	40-60% redukcia	Nákladné

Best practice stack:
1. Deduplication preprocessing
2. Differential privacy training
3. Output content filtering
4. Regular audity s canary tokens

7. Praktické odporúčania

Pre AI vývojárov:
- Audit tréningových dát: Skenuj na PII, secrets, copyright
- Implementuj safeguards: Content filtering, rate limiting
- Monitoruj outputs: Logy na detekciu verbatim leaks
- Privacy-first design: Minimalizuj osobné dáta v datasete
Pre používateľov AI:
- Nikdy nezadávaj: Skutočné heslá, API kľúče, citlivé dáta
- Over výstupy: Kontroluj či AI nevracia "príliš presné" informácie
- Buď opatrný s: Žiadosťami o citácie, presné znenia, definície
Pre organizácie:
- Data governance: Klasifikuj dáta pred použitím AI
- Access control: Obmedz kto môže používať AI na citlivé úlohy
- Audit trail: Loguj všetky AI interakcie pre compliance

8. Budúcnosť a výskumné smery

Emerging techniky:
- Unlearning: Vymazanie konkrétnych informácií z modelu
- Watermarking: Označenie generovaného vs. memorovaného obsahu
- Federated learning: Tréning bez centralizácie dát
Regulačný vývoj:
- EU AI Act požaduje transparentnosť o tréningových dátach
- GDPR "right to be forgotten" aplikované na AI modely
- US NIST guidelines pre AI memorization limits
Technické výzvy:
- Balans medzi užitočnou memoráciou (fakty) a škodlivou (PII)
- Škálovateľná detekcia bez znalosti tréningových dát
- Post-hoc removal memorovaného obsahu

Zhrnutie

Verbatim recall je inherentná vlastnosť súčasných LLM — nie bug, ale prirodzený dôsledok trénovania na veľkých datasetoch
Riziko extrakcie 0.01-1% tréningových dát robí z toho vážny privacy a legal problém
Najúčinnejšia ochrana: Kombinácia deduplikácie, differential privacy a output filteringu — ale 100% eliminácia nie je možná
Pre prax: Nikdy nezadávaj citlivé údaje do AI a vždy over či output nie je "príliš dokonalá" kópia existujúceho textu