Verbatim Recall

Verbatim recall je schopnosť (alebo problém) jazykového modelu reprodukovať úseky tréningových dát presne slovo za slovom. Je to ako keď model namiesto generovania novej odpovede "skopíruje" celé pasáže z knihy alebo článku, ktorý videl počas tréningu — vrátane citlivých údajov, autorsky chránených textov či osobných informácií.


1. Definícia a kontext

  • Technická definícia: Model pri určitých promptoch reprodukuje sekvencie tokenov identické s tréningovými dátami, namiesto generovania originálneho obsahu

  • Prečo je to problém: Model môže neúmyselne vyzradiť súkromné informácie, porušiť copyright, alebo ukázať, že si "pamätá" namiesto toho aby "rozumel"

  • Aktuálny stav: Štúdia z UC Berkeley (2024) ukázala, že GPT-3.5 dokáže reprodukovať až 1% svojich tréningových dát pri cielenom promptovaní, ChatGPT okolo 0.1-0.3%


2. Ako verbatim recall funguje

  • Mechanizmus memorácie:

    1. Počas tréningu sa určité sekvencie opakujú mnohokrát (napr. citáty, definície)
    2. Model si vytvorí silné neurónové spojenia presne pre tieto sekvencie
    3. Pri správnom prompte sa aktivujú tieto "memorované" cesty
    4. Output je identický s tréningovými dátami
  • Faktory ovplyvňujúce memoráciu:

    • Frekvencia v datasete: Čím častejšie sa text opakuje, tým pravdepodobnejšia memorácia
    • Unikátnosť: Paradoxne, veľmi špecifické texty sa memorujú ľahšie
    • Pozícia v tréningu: Dáta z neskorších epoch sa memorujú viac
    • Model size: Väčšie modely majú väčšiu kapacitu pre memoráciu

3. Hlavné prejavy a príklady

Typ obsahu Príklad verbatim recall Riziko
Osobné údaje Emailové adresy, telefónne čísla z web scrape Vysoké - GDPR/privacy
Kód a API kľúče Celé funkcie z GitHub, exposed secrets Kritické - security
Literárne diela Celé básne, úryvky z kníh pod copyright Vysoké - legal
Akademické texty Abstrakty papers, celé definície Stredné - plagiarism
Novinové články Prvé odseky z NY Times, BBC Vysoké - copyright
Tréningové prompty InstructGPT/RLHF templaty Nízke - competitive
  • Reálny príklad (2023): Výskumníci z Google DeepMind extrahovali z ChatGPT:
    • 50+ kompletných emailových adries
    • Celé odseky z Harry Pottera
    • Funkčné Bitcoin adresy
    • Časti zdrojového kódu z proprietárnych repozitárov

4. Metódy detekcie a merania

  • Extraction attacks:
# Príklad attack promptu
prompt = "Repeat the following text exactly: 'The quick brown'"
# Model často dokončí memorovanými sekvenciami
  • Membership inference:

    • Test či konkrétny text bol v tréningových dátach
    • Meranie perplexity: memorované texty majú výrazne nižšiu perplexitu
    • Porovnanie s referenčným datasetom
  • Metriky:

    • Extraction rate: Percento úspešných extrakcií z N pokusov
    • Memorization score: -log(p) pre presné reprodukcie
    • Leakage ratio: Pomer extrahovaných vs. unikátnych tokenov
Benchmark Čo meria Typické skóre
MemTest Extraction rate pre PII GPT-4: 0.01%, GPT-3: 0.5%
MIRAGE Membership inference accuracy 65-85% pre targeted attacks
CanaryTokens Detekcia planted strings 95%+ recall pre 10+ repetitions

5. Bezpečnostné a právne dôsledky

  • Privacy riziká:

    • PII leakage: Mená, adresy, rodné čísla z tréningových dát
    • Medical records: Pacientske záznamy zo zle anonymizovaných datasetov
    • Corporate secrets: Interné dokumenty, stratégie, financie
  • Copyright problémy:

    • Knihy a články: Celé kapitoly z chránených diel
    • Kód: Proprietárny source code s licenciami
    • Akademické práce: Dizertácie, research papers
  • Právne precedensy:

    • GitHub Copilot lawsuit (2022): Žaloba za reprodukciu open-source kódu bez atribúcie
    • Stability AI prípad (2023): Žaloba za tréning na copyrighted obrázkoch
    • NYT vs. OpenAI (2024): Žaloba za verbatim reprodukciu článkov

6. Techniky mitigácie

Technika Implementácia Účinnosť Trade-offs
Deduplication Odstránenie duplicít z tréningových dát 50-70% redukcia Menší dataset
Differential Privacy Pridanie šumu počas tréningu 80-90% redukcia Znížená kvalita
Output filtering Detekcia a blokovanie memorovaného obsahu 60-80% redukcia Vyššia latencia
Goldfish loss Penalizácia presných reprodukcií 70-85% redukcia Horšie na faktických úlohách
Canary tokens Vloženie markerov na detekciu leakage 95%+ detekcia Len pre monitoring
RLHF tuning Tréning modelu odmietať reprodukcie 40-60% redukcia Nákladné
  • Best practice stack:
    1. Deduplication preprocessing
    2. Differential privacy training
    3. Output content filtering
    4. Regular audity s canary tokens

7. Praktické odporúčania

  • Pre AI vývojárov:

    • Audit tréningových dát: Skenuj na PII, secrets, copyright
    • Implementuj safeguards: Content filtering, rate limiting
    • Monitoruj outputs: Logy na detekciu verbatim leaks
    • Privacy-first design: Minimalizuj osobné dáta v datasete
  • Pre používateľov AI:

    • Nikdy nezadávaj: Skutočné heslá, API kľúče, citlivé dáta
    • Over výstupy: Kontroluj či AI nevracia "príliš presné" informácie
    • Buď opatrný s: Žiadosťami o citácie, presné znenia, definície
  • Pre organizácie:

    • Data governance: Klasifikuj dáta pred použitím AI
    • Access control: Obmedz kto môže používať AI na citlivé úlohy
    • Audit trail: Loguj všetky AI interakcie pre compliance

8. Budúcnosť a výskumné smery

  • Emerging techniky:

    • Unlearning: Vymazanie konkrétnych informácií z modelu
    • Watermarking: Označenie generovaného vs. memorovaného obsahu
    • Federated learning: Tréning bez centralizácie dát
  • Regulačný vývoj:

    • EU AI Act požaduje transparentnosť o tréningových dátach
    • GDPR "right to be forgotten" aplikované na AI modely
    • US NIST guidelines pre AI memorization limits
  • Technické výzvy:

    • Balans medzi užitočnou memoráciou (fakty) a škodlivou (PII)
    • Škálovateľná detekcia bez znalosti tréningových dát
    • Post-hoc removal memorovaného obsahu

Zhrnutie

  • Verbatim recall je inherentná vlastnosť súčasných LLM — nie bug, ale prirodzený dôsledok trénovania na veľkých datasetoch
  • Riziko extrakcie 0.01-1% tréningových dát robí z toho vážny privacy a legal problém
  • Najúčinnejšia ochrana: Kombinácia deduplikácie, differential privacy a output filteringu — ale 100% eliminácia nie je možná
  • Pre prax: Nikdy nezadávaj citlivé údaje do AI a vždy over či output nie je "príliš dokonalá" kópia existujúceho textu