AI API / deep divesInformational

Vision API: chat cu imagini

Trimite imagini la modelul de chat pentru analiza, descriere și extragere date.

Raspuns scurt

Pentru intelegerea imaginilor folosesti chat completions cu input multimodal (image_url sau base64) și un model de vision live in /models.

Problema concreta

Echipele care vor OCR, descriere produs din foto sau analiza screenshot-uri au nevoie de un model multimodal disciplinat.

Cum o rezolva Router by MP

Trimitezi imaginea in payload-ul chat completions cu role 'user' continand image_url; modelul raspunde text bazat pe imagine.

Fluxuri uzuale

Upload imagine + descriere task.
Apel chat completions cu image_url.
Output text (analiza, descriere, OCR).
Validare in cod (regex, schema).

Modele recomandate

gpt-5.4-mini
gpt-5.4-pro

Disponibilitatea reala se verifica live in /models.

Control	De ce conteaza
Multimodal	Modelele live vad și raspund pe baza imaginii.
Cazuri reale	Recunoastere produs, OCR scanuri, descriere screenshot-uri.
Cost moderat	Pixel count influenteaza costul; verifica unit.

Reguli si limite

Disponibilitate. Verifica /models pentru capability 'vision'.
PII in imagini. Filtreaza imagini cu PII inainte de trimitere.
Calitate OCR. Pentru OCR strict, folosește vendor dedicat (Textract, Tesseract).

Integrare rapida

Foloseste endpointul https://api.megapromoting.com/v1, trimite cheia caAuthorization: Bearer <router_api_key> si verifica pagina/modelsinainte de productie.

Mai departe