Arhitectura RAG cu Router by MP
Schema completa RAG: ingest, chunking, embeddings, retrieval, reranker, chat cu citate.
Raspuns scurt
RAG cu Router by MP folosește embeddings 3-small/large pentru index, retrieval din vector DB, optional reranker, apoi chat completions cu context și citate.
Problema concreta
Echipele care vor knowledge base AI au nevoie sa decida intre architecturi (LangChain, LlamaIndex, custom) și cum sa mentina costul vizibil.
Cum o rezolva Router by MP
Schema standard: ingest -> chunking semantic -> embed cu cheia 'indexing' -> store in pgvector/Chroma -> retrieve top-k -> rerank (optional) -> chat cu prompt 'raspunde DOAR pe baza contextului' + citate.
Fluxuri uzuale
- Ingest docs și chunking pe sectiuni.
- Embed batch cu cheia 'indexing'.
- Storage vector DB.
- Retrieval + chat cu cheia 'runtime'.
Modele recomandate
gpt-5.4-minitext-embedding-3-smalltext-embedding-3-large
Disponibilitatea reala se verifica live in /models.
| Control | De ce conteaza |
|---|---|
| Doua chei | Indexing vs runtime separate pentru cost vizibil. |
| Citate | Modelul intoarce citate spre sursa. |
| Refresh | Re-index lunar sau pe trigger. |
Reguli si limite
- Chunking. Strategie semantica > fixed-size pentru calitate.
- Hallucinari. Cere modelului 'nu știu' fără sursa.
- Confidentialitate. Vector store ramane in infra ta.
Integrare rapida
Foloseste endpointul https://api.megapromoting.com/v1, trimite cheia caAuthorization: Bearer <router_api_key> si verifica pagina/modelsinainte de productie.