Arena / model comparisonInformational

Arena: embedding models prin Router by MP

Când alegi embedding small vs large: cost indexare, calitate retrieval, dimensiuni storage.

Vezi catalogul live Pilot RAG Vezi modele live

Raspuns scurt

text-embedding-3-small este alegere sigura pentru majoritatea RAG B2B; large devine util când retrieval-ul small are recall slab pe domeniul tau.

Problema concreta

Echipele aleg large peste tot pentru 'safety', dar dubleaza storage și crescând cost indexare 2-3x fără creștere de calitate observabila.

Cum o rezolva Router by MP

Pornesti cu small + reranker simplu (sau fără reranker). Dacă recall-ul scade observabil, pilotezi large pe un subset. Schimbi global doar după pilot.

Fluxuri uzuale

Index initial cu small.
Masura recall@10 pe query set reprezentativ.
Pilot large pe subset dacă recall < threshold.
Decizie de migrare globala cu cost real estimat.

Modele recomandate

text-embedding-3-small
text-embedding-3-large

Disponibilitatea reala se verifica live in /models.

Control	De ce conteaza
Cost vizibil	Vezi cost indexare + cost query separat pe chei diferite.
Storage previzibil	small 1536 dim vs large 3072 dim; planifica vector DB.
Reuse	Embeddings nu se regenereaza la fiecare query; investeste o data, returneaza luni.

Reguli si limite

Calitate per limba. Pentru limbi rare, verifica retrieval pe corpus.
Dimensiuni mari. large dubleaza storage; planifica disk/RAM in vector DB.
Benchmark public pending. Comparații intre embedding-uri pentru ro/ru nu sunt publice; pilot intern necesar.

Integrare rapida

Foloseste endpointul https://api.megapromoting.com/v1, trimite cheia caAuthorization: Bearer <router_api_key> si verifica pagina/modelsinainte de productie.

Mai departe