SurfSense
SurfSense je AI-powered knowledge hub, ktorý ti umožňuje pýtať sa otázky nad všetkými tvojimi firemnými dokumentami naraz — či už sú v Notion, Slacku, GitHube alebo Google Drive. Namiesto hľadania v desiatich rôznych aplikáciách dostaneš jednu odpoveď s presnými citáciami odkiaľ informácia pochádza.
1. Čo to je a prečo je to podstatné
Problém, ktorý rieši: Priemerný knowledge worker strávi 2.5 hodiny denne hľadaním informácií naprieč rôznymi nástrojmi. Firemné know-how je roztrúsené, nikto nevie čo už existuje, ľudia riešia rovnaké problémy opakovane.
Kľúčový rozdiel: Na rozdiel od klasického vyhľadávania (musíš vedieť kde hľadať) SurfSense prehľadá všetky pripojené zdroje a vygeneruje zhrnutú odpoveď s odkazmi na konkrétne dokumenty.
Hlavné vlastnosti:
- Federované vyhľadávanie — jeden query, všetky zdroje
- RAG architektúra — odpovede generované z reálnych dokumentov, nie z pamäte modelu
- Citácie a zdroje — každé tvrdenie má odkaz na konkrétny dokument a riadok
- Real-time sync — automaticky indexuje nové a upravené dokumenty
2. Technická architektúra
| Komponent | Technológia | Funkcia |
|---|---|---|
| Konektory | REST API, webhooks | Pripojenie k Notion, Slack, GitHub, Drive, Confluence |
| Indexovanie | PostgreSQL + pgvector | Vektorové embeddings dokumentov |
| Vyhľadávanie | Hybrid search (BM25 + semantic) | Kombinácia keyword a významového hľadania |
| Reranking | Cross-encoder model | Zoradenie výsledkov podľa relevancie |
| Generovanie | GPT-4 / Claude 3.5 | Syntéza odpovede z nájdených dokumentov |
| Cache | Redis | Rýchle odpovede na časté otázky |
- Proces spracovania:
- Chunking: Dokumenty sa rozdelia na segmenty (500-1000 tokenov)
- Embedding: Každý chunk sa prevedie na vektor (1536 dimenzií)
- Indexing: Vektory sa uložia do pgvector databázy
- Retrieval: Pri otázke sa nájde top-K podobných chunkov
- Generation: LLM vytvorí odpoveď z kontextu
3. Podporované zdroje a integrácie
| Zdroj | Čo indexuje | Sync frekvencia | Limitácie |
|---|---|---|---|
| Notion | Pages, databases, comments | Real-time webhook | Max 10k stránok vo free |
| Slack | Messages, threads, files | Každých 15 min | História 90 dní |
| GitHub | Code, issues, PRs, wikis | On push/merge | Public repos free, private paid |
| Google Drive | Docs, sheets, PDFs | Každú hodinu | Len text obsah, nie obrázky |
| Confluence | Pages, spaces, attachments | Každých 30 min | Cloud verzia only |
| SharePoint | Documents, lists, sites | 2x denne | Vyžaduje admin consent |
| Local files | Markdown, PDF, DOCX | Manual upload | Max 100MB per file |
- Roadmap integrácií: Linear, Jira, Asana, Microsoft Teams, Obsidian, Discord
4. Nasadenie a inštalácia
Cloud verzia (SaaS):
- Registrácia na surfsense.ai
- Pripojenie zdrojov cez OAuth
- Žiadna inštalácia, funguje za 5 minút
- Data hostované na AWS (US-East alebo EU-Central)
Self-hosted verzia:
# Docker all-in-one
docker run -d \
-p 8080:8080 \
-v surfsense_data:/data \
--env-file .env \
surfsense/surfsense:latest
- Systémové požiadavky:
- 8GB RAM minimum (16GB odporúčané)
- 4 CPU cores
- 50GB disk space pre indexy
- PostgreSQL 15+ s pgvector extension
- Redis 7+ pre cache
5. Bezpečnosť a súkromie
Šifrovanie:
- At rest: AES-256 pre všetky indexované dáta
- In transit: TLS 1.3 pre API komunikáciu
- Embeddings: Anonymizované, nerekonštruovateľné na originál
Access control:
- User-level permissions: Vidíš len dokumenty ku ktorým máš prístup v zdrojovom systéme
- SSO/SAML: Integrácia s Okta, Azure AD, Google Workspace
- API keys: Rotovateľné, scope-limited, audit logged
Compliance:
- GDPR compliant: Right to deletion, data portability
- SOC 2 Type II: Pre enterprise zákazníkov
- Zero-knowledge option: Embeddings sa počítajú lokálne, server vidí len vektory
Čo sa NEDEJE s dátami:
- Nepoužívajú sa na tréning modelov
- Nezdieľajú sa medzi zákazníkmi
- Nezostávajú v LLM provider cache (ephemeral sessions)
6. Ceny a plány
| Plán | Cena | Používatelia | Zdroje | Features |
|---|---|---|---|---|
| Free | $0 | 1 | 2 konektory, 1000 dokumentov | Basic search, 100 queries/mesiac |
| Team | $15/user/mesiac | 2-50 | 10 konektorov, unlimited docs | Unlimited queries, priority sync |
| Business | $35/user/mesiac | 50-500 | Všetky konektory | SSO, admin panel, API access |
| Enterprise | Custom | 500+ | Custom konektory | On-premise, SLA, dedicated support |
- API pricing: $0.01 per query + $0.001 per indexed document/mesiac
- Overages: Extra queries $0.05 each po vyčerpaní limitu
7. Praktické use cases
Onboarding nových zamestnancov:
- "Aký je proces na žiadosť o dovolenku?"
- "Kde nájdem template na projekt proposal?"
- Čas na produktivitu: z 2 týždňov na 3 dni
Technická dokumentácia:
- "Ako sa deployuje na staging?"
- "Aké sú environment variables pre payment service?"
- Redukcia duplicitných otázok v Slacku o 60%
Sales enablement:
- "Aké case studies máme pre fintech?"
- "Čo sme odpovedali na RFP otázku o security?"
- Skrátenie prípravy proposals z 4h na 45 min
Compliance a audit:
- "Kto má prístup k produkčnej databáze?"
- "Kedy sme naposledy updatovali privacy policy?"
- Instant odpovede pre auditorov s paper trail
8. Výhody a obmedzenia
| Výhody | Obmedzenia |
|---|---|
| ✅ Šetrí 2-3h denne na hľadaní | ❌ Kvalita závisí od kvality dokumentácie |
| ✅ Eliminuje "kde to bolo?" otázky | ❌ Nefunguje s obrázkami/videami (len text) |
| ✅ Automatické aktualizácie indexov | ❌ Initial indexing môže trvať hodiny |
| ✅ Presné citácie, nie halucinácií | ❌ Vyžaduje 5+ konektorov aby dával zmysel |
| ✅ Funguje s existujúcimi nástrojmi | ❌ Cena rastie s počtom users |
9. Tipy pre maximálnu hodnotu
Začni s najdôležitejšími zdrojmi: Dokumentácia, onboarding materiály, FAQs
Vyčisti si dáta: Zmaž duplicity a zastarané dokumenty pred indexovaním
Používaj feedback loop: Označ užitočné odpovede, model sa učí
Nastav smart alerts: Notifikácie keď niekto hľadá niečo čo neexistuje
Kombinuj s chatbotom: Integrácia do Slack/Teams pre instant odpovede
Červené vlajky pre nasadenie:
- Menej ako 1000 dokumentov (nemusí sa oplatiť)
- Vysoká fluktácia dokumentov (constant re-indexing)
- Prísne regulated industries (možné compliance issues)
Zhrnutie
- SurfSense je RAG-based knowledge hub ktorý federuje firemné dokumenty do jedného search interface s AI-generovanými odpoveďami
- Hlavná hodnota: Šetrí 2-3 hodiny denne eliminovaním hľadania naprieč nástrojmi — odpoveď s citáciami za sekundy
- Cena $15-35/user ho robí vhodným pre stredné a veľké tímy s rozptýlenou dokumentáciou
- Kritické: Kvalita output = kvalita input — ak máš chaos v dokumentoch, SurfSense ti nepomôže