AI API / deep divesInformational
Vision API: chat cu imagini
Trimite imagini la modelul de chat pentru analiza, descriere și extragere date.
Raspuns scurt
Pentru intelegerea imaginilor folosesti chat completions cu input multimodal (image_url sau base64) și un model de vision live in /models.
Problema concreta
Echipele care vor OCR, descriere produs din foto sau analiza screenshot-uri au nevoie de un model multimodal disciplinat.
Cum o rezolva Router by MP
Trimitezi imaginea in payload-ul chat completions cu role 'user' continand image_url; modelul raspunde text bazat pe imagine.
Fluxuri uzuale
- Upload imagine + descriere task.
- Apel chat completions cu image_url.
- Output text (analiza, descriere, OCR).
- Validare in cod (regex, schema).
Modele recomandate
gpt-5.4-minigpt-5.4-pro
Disponibilitatea reala se verifica live in /models.
| Control | De ce conteaza |
|---|---|
| Multimodal | Modelele live vad și raspund pe baza imaginii. |
| Cazuri reale | Recunoastere produs, OCR scanuri, descriere screenshot-uri. |
| Cost moderat | Pixel count influenteaza costul; verifica unit. |
Reguli si limite
- Disponibilitate. Verifica /models pentru capability 'vision'.
- PII in imagini. Filtreaza imagini cu PII inainte de trimitere.
- Calitate OCR. Pentru OCR strict, folosește vendor dedicat (Textract, Tesseract).
Integrare rapida
Foloseste endpointul https://api.megapromoting.com/v1, trimite cheia caAuthorization: Bearer <router_api_key> si verifica pagina/modelsinainte de productie.