人間の目は、通常、簡単な写真の内容と意味を解読することができます。現在では、生成AIが膨大な量のデータを識別して解釈する機能により、コンピュータ・システムがこのタスクをエミュレートできるようになりました。
このソリューションでは、ユーザーがイメージをアップロードし、イメージに関する問合せを記述する自然言語プロンプトを入力し、AIモデルによって生成されたテキストベースのレスポンスを受信できる基本的なイメージツーテキスト・アプリケーションを作成する方法を示します。base64イメージ・デコーダであるStreamlitで構築されたシンプルなインタフェースを使用し、マルチモーダル・データ(テキストおよびイメージ)の処理にOracle Cloud Infrastructure (OCI)生成AI推論APIを活用することで、簡単にまとめられ、OCIでAIサービスを試す理想的なエントリ・ポイントとして機能します。