Sari la conținut
Inapoi la Soluții
Soluții / B2B procese de lucruCommercial

Căutare semantică în propriile documente (RAG)

Indexezi propria bibliotecă de documente (proceduri, regulamente, contracte, FAQ) și AI răspunde din ele cu citate exacte. Pentru biblioteci sub 500 pagini, GPT-5.5 cu 1M context elimină necesitatea RAG clasic. Pentru mai mult, folosim embeddings plus chat.

Raspuns scurt

Cabinet stomatologic cu 200 pagini de proceduri interne. Firmă de avocatură cu 5000 dosare. ONG cu 50 regulamente. AI-ul răspunde la „care e procedura pentru extracție molar" sau „ce contract folosim pentru cesiune" cu citate exacte la sursă. Cu Claude Opus 4.7 și GPT-5.5 (1M context) elimini complexitatea RAG pentru biblioteci sub 500 pagini.

Problema concreta

Echipa de suport la o firmă de logistică pierde 30 minute pe zi cerând colegilor „unde-i procedura pentru vama Albița". Firma de avocatură caută 45 minute prin arhivă să găsească contractul similar pentru speța nouă. Soluțiile vechi (search full-text) nu înțeleg sinonime, ratează contextul. Trend 2026: modelele cu context 1M tokens (GPT-5.5, Claude Opus 4.7) citesc toată biblioteca într-o singură cerere pentru biblioteci mici-medii.

Cum o rezolva Router by MP

Două abordări în 2026: (1) Pentru biblioteci sub 500 pagini, încarci toată biblioteca în contextul GPT-5.5 (1M tokens) sau Claude Opus 4.7 (200K tokens) — nu mai e nevoie de RAG complicat. Costul tipic: 0.50-2 USD per cerere, dar modelul vede tot și răspunde mai bine. (2) Pentru biblioteci mari (peste 500 pagini), folosim embeddings (text-embedding-3-small) ca să indexăm, stocăm în pgvector sau Chroma, și folosim chat cu căutare semantică. Cheie separată pentru indexare batch (o singură dată) și pentru cereri live (zilnic).

Fluxuri uzuale

  • Pentru bibliotecă sub 500 pagini: încărcăm toate documentele într-un fișier mare → la fiecare cerere, pasăm cu întrebarea utilizatorului → GPT-5.5 răspunde cu citate
  • Pentru bibliotecă mare: indexare batch (o singură dată, cost mic per pagină) → stocare în pgvector pe propriul tău server → cereri live cu căutare semantică și chat
  • Modelul răspunde DOAR din documentele tale și citează pagina exactă. Dacă întrebarea n-are sursă, spune onest „nu găsesc răspuns în documentele indexate"
  • Refresh periodic: când adaugi documente noi, re-indexezi doar diferența (lunar sau pe trigger)
  • Pentru date sensibile: vector database rămâne pe serverul tău (pgvector / Chroma self-hosted), niciun document nu pleacă în afară

Modele recomandate

  • text-embedding-3-small
  • text-embedding-3-large
  • gpt-5.5
  • claude-opus-4-7

Disponibilitatea reala se verifica live in /models.

ControlDe ce conteaza
1M context elimină RAG complicatPentru sub 500 pagini, modelul citește tot direct. Mai simplu, mai precis, fără mentenanță pe vector DB.
Citate exacte la paginăRăspunsul are întotdeauna „sursa: pagina 47 din Regulament_intern_2026.pdf". Verificabil instant.
Date pe propriul serverVector DB (pgvector, Chroma, Weaviate) rămâne pe serverele tale. Nimic nu pleacă la providerul AI fără să decizi tu.
Nu halucineazăSetăm modelul să răspundă „nu știu" dacă nu găsește sursă. Mai bine să nu răspundă decât să inventeze.

Reguli si limite

  • Chunking pentru biblioteci foarte mari. Peste 5000 pagini, strategia de împărțire (semantic vs fixed) contează mult pentru calitate. Recomandare: începi cu chunk-uri semantice de 800-1200 tokens.
  • Documente scanate. Pentru PDF-uri scanate (nu text nativ), trece-le prin OCR întâi (Tesseract sau provider). Modelul nu citește imagini cu text dens.
  • Limba documentelor. Dacă biblioteca e mixtă RO/RU/EN, indexezi pe limba originală. Embedding-urile multilingve sunt bune dar nu perfecte.

Integrare rapida

Foloseste endpointul https://api.megapromoting.com/v1, trimite cheia caAuthorization: Bearer <router_api_key> si verifica pagina/modelsinainte de productie.

Mai departe

Căutare semantică în propriile documente (RAG) | Router by Mega Promoting