Arena / model comparisonInformational
Arena: embedding models prin Router by MP
Când alegi embedding small vs large: cost indexare, calitate retrieval, dimensiuni storage.
Raspuns scurt
text-embedding-3-small este alegere sigura pentru majoritatea RAG B2B; large devine util când retrieval-ul small are recall slab pe domeniul tau.
Problema concreta
Echipele aleg large peste tot pentru 'safety', dar dubleaza storage și crescând cost indexare 2-3x fără creștere de calitate observabila.
Cum o rezolva Router by MP
Pornesti cu small + reranker simplu (sau fără reranker). Dacă recall-ul scade observabil, pilotezi large pe un subset. Schimbi global doar după pilot.
Fluxuri uzuale
- Index initial cu small.
- Masura recall@10 pe query set reprezentativ.
- Pilot large pe subset dacă recall < threshold.
- Decizie de migrare globala cu cost real estimat.
Modele recomandate
text-embedding-3-smalltext-embedding-3-large
Disponibilitatea reala se verifica live in /models.
| Control | De ce conteaza |
|---|---|
| Cost vizibil | Vezi cost indexare + cost query separat pe chei diferite. |
| Storage previzibil | small 1536 dim vs large 3072 dim; planifica vector DB. |
| Reuse | Embeddings nu se regenereaza la fiecare query; investeste o data, returneaza luni. |
Reguli si limite
- Calitate per limba. Pentru limbi rare, verifica retrieval pe corpus.
- Dimensiuni mari. large dubleaza storage; planifica disk/RAM in vector DB.
- Benchmark public pending. Comparații intre embedding-uri pentru ro/ru nu sunt publice; pilot intern necesar.
Integrare rapida
Foloseste endpointul https://api.megapromoting.com/v1, trimite cheia caAuthorization: Bearer <router_api_key> si verifica pagina/modelsinainte de productie.