Căutare semantică în propriile documente (RAG)
Indexezi propria bibliotecă de documente (proceduri, regulamente, contracte, FAQ) și AI răspunde din ele cu citate exacte. Pentru biblioteci sub 500 pagini, GPT-5.5 cu 1M context elimină necesitatea RAG clasic. Pentru mai mult, folosim embeddings plus chat.
Raspuns scurt
Cabinet stomatologic cu 200 pagini de proceduri interne. Firmă de avocatură cu 5000 dosare. ONG cu 50 regulamente. AI-ul răspunde la „care e procedura pentru extracție molar" sau „ce contract folosim pentru cesiune" cu citate exacte la sursă. Cu Claude Opus 4.7 și GPT-5.5 (1M context) elimini complexitatea RAG pentru biblioteci sub 500 pagini.
Problema concreta
Echipa de suport la o firmă de logistică pierde 30 minute pe zi cerând colegilor „unde-i procedura pentru vama Albița". Firma de avocatură caută 45 minute prin arhivă să găsească contractul similar pentru speța nouă. Soluțiile vechi (search full-text) nu înțeleg sinonime, ratează contextul. Trend 2026: modelele cu context 1M tokens (GPT-5.5, Claude Opus 4.7) citesc toată biblioteca într-o singură cerere pentru biblioteci mici-medii.
Cum o rezolva Router by MP
Două abordări în 2026: (1) Pentru biblioteci sub 500 pagini, încarci toată biblioteca în contextul GPT-5.5 (1M tokens) sau Claude Opus 4.7 (200K tokens) — nu mai e nevoie de RAG complicat. Costul tipic: 0.50-2 USD per cerere, dar modelul vede tot și răspunde mai bine. (2) Pentru biblioteci mari (peste 500 pagini), folosim embeddings (text-embedding-3-small) ca să indexăm, stocăm în pgvector sau Chroma, și folosim chat cu căutare semantică. Cheie separată pentru indexare batch (o singură dată) și pentru cereri live (zilnic).
Fluxuri uzuale
- Pentru bibliotecă sub 500 pagini: încărcăm toate documentele într-un fișier mare → la fiecare cerere, pasăm cu întrebarea utilizatorului → GPT-5.5 răspunde cu citate
- Pentru bibliotecă mare: indexare batch (o singură dată, cost mic per pagină) → stocare în pgvector pe propriul tău server → cereri live cu căutare semantică și chat
- Modelul răspunde DOAR din documentele tale și citează pagina exactă. Dacă întrebarea n-are sursă, spune onest „nu găsesc răspuns în documentele indexate"
- Refresh periodic: când adaugi documente noi, re-indexezi doar diferența (lunar sau pe trigger)
- Pentru date sensibile: vector database rămâne pe serverul tău (pgvector / Chroma self-hosted), niciun document nu pleacă în afară
Modele recomandate
text-embedding-3-smalltext-embedding-3-largegpt-5.5claude-opus-4-7
Disponibilitatea reala se verifica live in /models.
| Control | De ce conteaza |
|---|---|
| 1M context elimină RAG complicat | Pentru sub 500 pagini, modelul citește tot direct. Mai simplu, mai precis, fără mentenanță pe vector DB. |
| Citate exacte la pagină | Răspunsul are întotdeauna „sursa: pagina 47 din Regulament_intern_2026.pdf". Verificabil instant. |
| Date pe propriul server | Vector DB (pgvector, Chroma, Weaviate) rămâne pe serverele tale. Nimic nu pleacă la providerul AI fără să decizi tu. |
| Nu halucinează | Setăm modelul să răspundă „nu știu" dacă nu găsește sursă. Mai bine să nu răspundă decât să inventeze. |
Reguli si limite
- Chunking pentru biblioteci foarte mari. Peste 5000 pagini, strategia de împărțire (semantic vs fixed) contează mult pentru calitate. Recomandare: începi cu chunk-uri semantice de 800-1200 tokens.
- Documente scanate. Pentru PDF-uri scanate (nu text nativ), trece-le prin OCR întâi (Tesseract sau provider). Modelul nu citește imagini cu text dens.
- Limba documentelor. Dacă biblioteca e mixtă RO/RU/EN, indexezi pe limba originală. Embedding-urile multilingve sunt bune dar nu perfecte.
Integrare rapida
Foloseste endpointul https://api.megapromoting.com/v1, trimite cheia caAuthorization: Bearer <router_api_key> si verifica pagina/modelsinainte de productie.