L'occhio umano può di solito decifrare il contenuto e il significato di una fotografia semplice. Ora, con la capacità dell'intelligenza artificiale generativa di identificare e interpretare grandi quantità di dati, i sistemi informatici possono emulare questa attività.
Questa soluzione ti mostrerà come creare un'app di base image-to-text che consenta agli utenti di caricare un'immagine, immettere un prompt in linguaggio naturale che descriva una query sull'immagine e ricevere una risposta basata sul testo generata dal modello AI. Utilizzando una semplice interfaccia creata con Streamlit, un decodificatore di immagini base64 e sfruttando l'API di inferenza AI generativa di Oracle Cloud Infrastructure (OCI) per l'elaborazione di dati multimodali (testi e immagini), è facile da mettere insieme e funge da punto di accesso ideale per provare i servizi AI su OCI.