Sari la conținut
Inapoi la Arena
Arena / model comparisonInformational

Arena: embedding models prin Router by MP

Când alegi embedding small vs large: cost indexare, calitate retrieval, dimensiuni storage.

Raspuns scurt

text-embedding-3-small este alegere sigura pentru majoritatea RAG B2B; large devine util când retrieval-ul small are recall slab pe domeniul tau.

Problema concreta

Echipele aleg large peste tot pentru 'safety', dar dubleaza storage și crescând cost indexare 2-3x fără creștere de calitate observabila.

Cum o rezolva Router by MP

Pornesti cu small + reranker simplu (sau fără reranker). Dacă recall-ul scade observabil, pilotezi large pe un subset. Schimbi global doar după pilot.

Fluxuri uzuale

  • Index initial cu small.
  • Masura recall@10 pe query set reprezentativ.
  • Pilot large pe subset dacă recall < threshold.
  • Decizie de migrare globala cu cost real estimat.

Modele recomandate

  • text-embedding-3-small
  • text-embedding-3-large

Disponibilitatea reala se verifica live in /models.

ControlDe ce conteaza
Cost vizibilVezi cost indexare + cost query separat pe chei diferite.
Storage previzibilsmall 1536 dim vs large 3072 dim; planifica vector DB.
ReuseEmbeddings nu se regenereaza la fiecare query; investeste o data, returneaza luni.

Reguli si limite

  • Calitate per limba. Pentru limbi rare, verifica retrieval pe corpus.
  • Dimensiuni mari. large dubleaza storage; planifica disk/RAM in vector DB.
  • Benchmark public pending. Comparații intre embedding-uri pentru ro/ru nu sunt publice; pilot intern necesar.

Integrare rapida

Foloseste endpointul https://api.megapromoting.com/v1, trimite cheia caAuthorization: Bearer <router_api_key> si verifica pagina/modelsinainte de productie.

Mai departe

Arena: embedding models prin Router by MP | Router by Mega Promoting