SurfSense

SurfSense je AI-powered knowledge hub, ktorý ti umožňuje pýtať sa otázky nad všetkými tvojimi firemnými dokumentami naraz — či už sú v Notion, Slacku, GitHube alebo Google Drive. Namiesto hľadania v desiatich rôznych aplikáciách dostaneš jednu odpoveď s presnými citáciami odkiaľ informácia pochádza.


1. Čo to je a prečo je to podstatné

  • Problém, ktorý rieši: Priemerný knowledge worker strávi 2.5 hodiny denne hľadaním informácií naprieč rôznymi nástrojmi. Firemné know-how je roztrúsené, nikto nevie čo už existuje, ľudia riešia rovnaké problémy opakovane.

  • Kľúčový rozdiel: Na rozdiel od klasického vyhľadávania (musíš vedieť kde hľadať) SurfSense prehľadá všetky pripojené zdroje a vygeneruje zhrnutú odpoveď s odkazmi na konkrétne dokumenty.

  • Hlavné vlastnosti:

    • Federované vyhľadávanie — jeden query, všetky zdroje
    • RAG architektúra — odpovede generované z reálnych dokumentov, nie z pamäte modelu
    • Citácie a zdroje — každé tvrdenie má odkaz na konkrétny dokument a riadok
    • Real-time sync — automaticky indexuje nové a upravené dokumenty

2. Technická architektúra

Komponent Technológia Funkcia
Konektory REST API, webhooks Pripojenie k Notion, Slack, GitHub, Drive, Confluence
Indexovanie PostgreSQL + pgvector Vektorové embeddings dokumentov
Vyhľadávanie Hybrid search (BM25 + semantic) Kombinácia keyword a významového hľadania
Reranking Cross-encoder model Zoradenie výsledkov podľa relevancie
Generovanie GPT-4 / Claude 3.5 Syntéza odpovede z nájdených dokumentov
Cache Redis Rýchle odpovede na časté otázky
  • Proces spracovania:
    1. Chunking: Dokumenty sa rozdelia na segmenty (500-1000 tokenov)
    2. Embedding: Každý chunk sa prevedie na vektor (1536 dimenzií)
    3. Indexing: Vektory sa uložia do pgvector databázy
    4. Retrieval: Pri otázke sa nájde top-K podobných chunkov
    5. Generation: LLM vytvorí odpoveď z kontextu

3. Podporované zdroje a integrácie

Zdroj Čo indexuje Sync frekvencia Limitácie
Notion Pages, databases, comments Real-time webhook Max 10k stránok vo free
Slack Messages, threads, files Každých 15 min História 90 dní
GitHub Code, issues, PRs, wikis On push/merge Public repos free, private paid
Google Drive Docs, sheets, PDFs Každú hodinu Len text obsah, nie obrázky
Confluence Pages, spaces, attachments Každých 30 min Cloud verzia only
SharePoint Documents, lists, sites 2x denne Vyžaduje admin consent
Local files Markdown, PDF, DOCX Manual upload Max 100MB per file
  • Roadmap integrácií: Linear, Jira, Asana, Microsoft Teams, Obsidian, Discord

4. Nasadenie a inštalácia

  • Cloud verzia (SaaS):

    • Registrácia na surfsense.ai
    • Pripojenie zdrojov cez OAuth
    • Žiadna inštalácia, funguje za 5 minút
    • Data hostované na AWS (US-East alebo EU-Central)
  • Self-hosted verzia:

# Docker all-in-one
docker run -d \
  -p 8080:8080 \
  -v surfsense_data:/data \
  --env-file .env \
  surfsense/surfsense:latest
  • Systémové požiadavky:
    • 8GB RAM minimum (16GB odporúčané)
    • 4 CPU cores
    • 50GB disk space pre indexy
    • PostgreSQL 15+ s pgvector extension
    • Redis 7+ pre cache

5. Bezpečnosť a súkromie

  • Šifrovanie:

    • At rest: AES-256 pre všetky indexované dáta
    • In transit: TLS 1.3 pre API komunikáciu
    • Embeddings: Anonymizované, nerekonštruovateľné na originál
  • Access control:

    • User-level permissions: Vidíš len dokumenty ku ktorým máš prístup v zdrojovom systéme
    • SSO/SAML: Integrácia s Okta, Azure AD, Google Workspace
    • API keys: Rotovateľné, scope-limited, audit logged
  • Compliance:

    • GDPR compliant: Right to deletion, data portability
    • SOC 2 Type II: Pre enterprise zákazníkov
    • Zero-knowledge option: Embeddings sa počítajú lokálne, server vidí len vektory
  • Čo sa NEDEJE s dátami:

    • Nepoužívajú sa na tréning modelov
    • Nezdieľajú sa medzi zákazníkmi
    • Nezostávajú v LLM provider cache (ephemeral sessions)

6. Ceny a plány

Plán Cena Používatelia Zdroje Features
Free $0 1 2 konektory, 1000 dokumentov Basic search, 100 queries/mesiac
Team $15/user/mesiac 2-50 10 konektorov, unlimited docs Unlimited queries, priority sync
Business $35/user/mesiac 50-500 Všetky konektory SSO, admin panel, API access
Enterprise Custom 500+ Custom konektory On-premise, SLA, dedicated support
  • API pricing: $0.01 per query + $0.001 per indexed document/mesiac
  • Overages: Extra queries $0.05 each po vyčerpaní limitu

7. Praktické use cases

  • Onboarding nových zamestnancov:

    • "Aký je proces na žiadosť o dovolenku?"
    • "Kde nájdem template na projekt proposal?"
    • Čas na produktivitu: z 2 týždňov na 3 dni
  • Technická dokumentácia:

    • "Ako sa deployuje na staging?"
    • "Aké sú environment variables pre payment service?"
    • Redukcia duplicitných otázok v Slacku o 60%
  • Sales enablement:

    • "Aké case studies máme pre fintech?"
    • "Čo sme odpovedali na RFP otázku o security?"
    • Skrátenie prípravy proposals z 4h na 45 min
  • Compliance a audit:

    • "Kto má prístup k produkčnej databáze?"
    • "Kedy sme naposledy updatovali privacy policy?"
    • Instant odpovede pre auditorov s paper trail

8. Výhody a obmedzenia

Výhody Obmedzenia
✅ Šetrí 2-3h denne na hľadaní ❌ Kvalita závisí od kvality dokumentácie
✅ Eliminuje "kde to bolo?" otázky ❌ Nefunguje s obrázkami/videami (len text)
✅ Automatické aktualizácie indexov ❌ Initial indexing môže trvať hodiny
✅ Presné citácie, nie halucinácií ❌ Vyžaduje 5+ konektorov aby dával zmysel
✅ Funguje s existujúcimi nástrojmi ❌ Cena rastie s počtom users

9. Tipy pre maximálnu hodnotu

  • Začni s najdôležitejšími zdrojmi: Dokumentácia, onboarding materiály, FAQs

  • Vyčisti si dáta: Zmaž duplicity a zastarané dokumenty pred indexovaním

  • Používaj feedback loop: Označ užitočné odpovede, model sa učí

  • Nastav smart alerts: Notifikácie keď niekto hľadá niečo čo neexistuje

  • Kombinuj s chatbotom: Integrácia do Slack/Teams pre instant odpovede

  • Červené vlajky pre nasadenie:

    • Menej ako 1000 dokumentov (nemusí sa oplatiť)
    • Vysoká fluktácia dokumentov (constant re-indexing)
    • Prísne regulated industries (možné compliance issues)

Zhrnutie

  • SurfSense je RAG-based knowledge hub ktorý federuje firemné dokumenty do jedného search interface s AI-generovanými odpoveďami
  • Hlavná hodnota: Šetrí 2-3 hodiny denne eliminovaním hľadania naprieč nástrojmi — odpoveď s citáciami za sekundy
  • Cena $15-35/user ho robí vhodným pre stredné a veľké tímy s rozptýlenou dokumentáciou
  • Kritické: Kvalita output = kvalita input — ak máš chaos v dokumentoch, SurfSense ti nepomôže