Das menschliche Auge kann normalerweise den Inhalt und die Bedeutung eines einfachen Fotos entschlüsseln. Mit der Fähigkeit der generativen KI, riesige Datenmengen zu identifizieren und zu interpretieren, können Computersysteme diese Aufgabe nachahmen.
Diese Lösung zeigt Ihnen, wie Sie eine grundlegende Bild-zu-Text-App erstellen, mit der Benutzer ein Bild hochladen, eine Eingabeaufforderung in natürlicher Sprache eingeben, die eine Abfrage zum Bild beschreibt, und eine vom KI-Modell generierte textbasierte Antwort erhalten. Mit einer einfachen Oberfläche, die mit Streamlit, einem base64-Imagedecoder, erstellt wurde und die generative KI-Inferenz-API von Oracle Cloud Infrastructure (OCI) zur Verarbeitung multimodaler Daten (Text und Bilder) nutzt, ist sie einfach zusammenzustellen und dient als idealer Einstiegspunkt, um KI-Services auf OCI auszuprobieren.