El ojo humano generalmente puede descifrar el contenido y el significado de una fotografía directa. Ahora, con la capacidad de la IA generativa para identificar e interpretar grandes cantidades de datos, los sistemas informáticos pueden emular esta tarea.
Esta solución te mostrará cómo crear una aplicación básica de imagen a texto que permita a los usuarios cargar una imagen, introducir una petición de datos en lenguaje natural que describa una consulta sobre la imagen y recibir una respuesta basada en texto generada por el modelo de IA. Mediante una interfaz sencilla creada con Streamlit, un descodificador de imágenes base64 y el uso de la API de inferencia de IA generativa de Oracle Cloud Infrastructure (OCI) para procesar datos multimodales (texto e imágenes), es fácil de combinar y sirve como punto de entrada ideal para probar los servicios de IA en OCI.