AI API / deep divesInformational

Arhitectura RAG cu Router by MP

Schema completa RAG: ingest, chunking, embeddings, retrieval, reranker, chat cu citate.

Vezi docs Modele embeddings Vezi modele live

Raspuns scurt

RAG cu Router by MP folosește embeddings 3-small/large pentru index, retrieval din vector DB, optional reranker, apoi chat completions cu context și citate.

Problema concreta

Echipele care vor knowledge base AI au nevoie sa decida intre architecturi (LangChain, LlamaIndex, custom) și cum sa mentina costul vizibil.

Cum o rezolva Router by MP

Schema standard: ingest -> chunking semantic -> embed cu cheia 'indexing' -> store in pgvector/Chroma -> retrieve top-k -> rerank (optional) -> chat cu prompt 'raspunde DOAR pe baza contextului' + citate.

Fluxuri uzuale

Ingest docs și chunking pe sectiuni.
Embed batch cu cheia 'indexing'.
Storage vector DB.
Retrieval + chat cu cheia 'runtime'.

Modele recomandate

gpt-5.4-mini
text-embedding-3-small
text-embedding-3-large

Disponibilitatea reala se verifica live in /models.

Control	De ce conteaza
Doua chei	Indexing vs runtime separate pentru cost vizibil.
Citate	Modelul intoarce citate spre sursa.
Refresh	Re-index lunar sau pe trigger.

Reguli si limite

Chunking. Strategie semantica > fixed-size pentru calitate.
Hallucinari. Cere modelului 'nu știu' fără sursa.
Confidentialitate. Vector store ramane in infra ta.

Integrare rapida

Foloseste endpointul https://api.megapromoting.com/v1, trimite cheia caAuthorization: Bearer <router_api_key> si verifica pagina/modelsinainte de productie.

Mai departe