Sari la conținut
Inapoi la AI API
AI API / deep divesInformational

Vision API: chat cu imagini

Trimite imagini la modelul de chat pentru analiza, descriere și extragere date.

Raspuns scurt

Pentru intelegerea imaginilor folosesti chat completions cu input multimodal (image_url sau base64) și un model de vision live in /models.

Problema concreta

Echipele care vor OCR, descriere produs din foto sau analiza screenshot-uri au nevoie de un model multimodal disciplinat.

Cum o rezolva Router by MP

Trimitezi imaginea in payload-ul chat completions cu role 'user' continand image_url; modelul raspunde text bazat pe imagine.

Fluxuri uzuale

  • Upload imagine + descriere task.
  • Apel chat completions cu image_url.
  • Output text (analiza, descriere, OCR).
  • Validare in cod (regex, schema).

Modele recomandate

  • gpt-5.4-mini
  • gpt-5.4-pro

Disponibilitatea reala se verifica live in /models.

ControlDe ce conteaza
MultimodalModelele live vad și raspund pe baza imaginii.
Cazuri realeRecunoastere produs, OCR scanuri, descriere screenshot-uri.
Cost moderatPixel count influenteaza costul; verifica unit.

Reguli si limite

  • Disponibilitate. Verifica /models pentru capability 'vision'.
  • PII in imagini. Filtreaza imagini cu PII inainte de trimitere.
  • Calitate OCR. Pentru OCR strict, folosește vendor dedicat (Textract, Tesseract).

Integrare rapida

Foloseste endpointul https://api.megapromoting.com/v1, trimite cheia caAuthorization: Bearer <router_api_key> si verifica pagina/modelsinainte de productie.

Mai departe

Vision API: chat cu imagini | Router by Mega Promoting