The latest Gemini models, like Gemini 3.1 Flash Image (Nano Banana 2), are available to use with Firebase AI Logic! Learn more.

Gemini 2.0 Flash and Flash-Lite models will shut down on June 1, 2026. To avoid service disruption, update to a newer model like gemini-3.1-flash-lite. Learn more.

All Imagen models will shut down on June 24, 2026. Learn about migrating your apps to use Nano Banana.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini API を使用して音声ファイルを分析する

Gemini モデルに、インライン（base64 エンコード）または URL で指定した音声ファイルの分析をリクエストできます。Firebase AI Logic を使用する場合は、アプリから直接このリクエストを行うことができます。

この機能を使用すると、次のようなことができます。

音声コンテンツの説明、要約、質問への回答
音声コンテンツを文字に変換する
タイムスタンプを使用して音声の特定のセグメントを分析する

コードサンプルに移動ストリーミングされたレスポンスのコードに移動

音声の操作に関するその他のオプションについては、他のガイドをご覧ください
構造化出力を生成するマルチターンチャット双方向ストリーミング

始める前に

Gemini API プロバイダをクリックして、このページでプロバイダ固有のコンテンツとコードを表示します。

まだ完了していない場合は、スタートガイドに沿って、記載されている手順（Firebase プロジェクトの設定、アプリと Firebase の連携、SDK の追加、選択した Gemini API プロバイダのバックエンドサービスの初期化、GenerativeModel インスタンスの作成）を完了します。

プロンプトのテストと反復処理には、Google AI Studio の使用をおすすめします。

サンプル音声ファイルが必要ですか？

この一般公開されているファイルは、MIME タイプ audio/mp3 で使用できます（ファイルを表示またはダウンロード）。 https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3

音声ファイル（base64 エンコード）からテキストを生成する

このサンプルを試す前に、このガイドの始める前にのセクションを完了して、プロジェクトとアプリを設定してください。
このセクションでは、選択した Gemini API プロバイダのボタンをクリックして、このページにプロバイダ固有のコンテンツを表示します。

Gemini モデルにテキストの生成をリクエストするには、テキストと音声でプロンプトを指定します。入力ファイルの mimeType とファイル自体を指定します。このページの後半で、入力ファイルの要件と推奨事項をご確認ください。