O olho humano geralmente pode decifrar o conteúdo e o significado de uma fotografia direta. Agora, com a capacidade da IA generativa de identificar e interpretar grandes quantidades de dados, os sistemas de computador podem emular essa tarefa.
Esta solução mostrará como criar um aplicativo básico de imagem para texto que permita aos usuários fazer upload de uma imagem, inserir um prompt de linguagem natural descrevendo uma consulta sobre a imagem e receber uma resposta baseada em texto gerada pelo modelo de IA. Usando uma interface simples criada com Streamlit, um decodificador de imagem base64 e aproveitando a API de inferência de IA generativa da Oracle Cloud Infrastructure (OCI) para processar dados multimodais (texto e imagens), é fácil de montar e serve como um ponto de entrada ideal para experimentar serviços de IA na OCI.