The latest Gemini models, like Gemini 3.1 Flash Image (Nano Banana 2), are available to use with Firebase AI Logic! Learn more.

Gemini 2.0 Flash and Flash-Lite models will shut down on June 1, 2026. To avoid service disruption, update to a newer model like gemini-3.1-flash-lite. Learn more.

All Imagen models will shut down on June 24, 2026. Learn about migrating your apps to use Nano Banana.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Phân tích tệp âm thanh bằng API Gemini

Bạn có thể yêu cầu mô hình Gemini phân tích các tệp âm thanh mà bạn cung cấp trực tiếp (được mã hoá base64) hoặc thông qua URL. Khi sử dụng Firebase AI Logic, bạn có thể đưa ra yêu cầu này ngay từ ứng dụng của mình.

Với tính năng này, bạn có thể làm những việc như:

Mô tả, tóm tắt hoặc trả lời câu hỏi về nội dung âm thanh
Chép lời nội dung âm thanh
Phân tích các đoạn âm thanh cụ thể bằng dấu thời gian

Chuyển đến mã mẫu Chuyển đến mã cho các phản hồi được truyền trực tuyến

Xem các hướng dẫn khác để biết thêm các lựa chọn làm việc với âm thanh
Tạo đầu ra có cấu trúc Trò chuyện nhiều lượt Truyền phát trực tiếp hai chiều

Trước khi bắt đầu

Nhấp vào nhà cung cấp Gemini API để xem nội dung và mã dành riêng cho nhà cung cấp trên trang này.

Nếu bạn chưa thực hiện, hãy hoàn tất hướng dẫn bắt đầu sử dụng. Hướng dẫn này mô tả cách thiết lập dự án Firebase, kết nối ứng dụng với Firebase, thêm SDK, khởi chạy dịch vụ phụ trợ cho nhà cung cấp Gemini API mà bạn chọn và tạo một phiên bản GenerativeModel.

Để kiểm thử và lặp lại các câu lệnh, bạn nên sử dụng Google AI Studio.

Bạn cần một tệp âm thanh mẫu?

Bạn có thể sử dụng tệp có sẵn công khai này với loại MIME là audio/mp3 (xem hoặc tải tệp xuống). https://storage.googleapis.com/cloud-samples-data/generative-ai/audio/pixel.mp3

Tạo văn bản từ tệp âm thanh (được mã hoá bằng base64)

Trước khi dùng thử mẫu này, hãy hoàn tất phần Trước khi bắt đầu của hướng dẫn này để thiết lập dự án và ứng dụng của bạn.
Trong phần đó, bạn cũng sẽ nhấp vào một nút cho nhà cung cấp Gemini API mà bạn chọn để xem nội dung dành riêng cho nhà cung cấp trên trang này.

Bạn có thể yêu cầu mô hình Gemini tạo văn bản bằng cách đưa ra câu lệnh bằng văn bản và âm thanh, cung cấp mimeType của tệp đầu vào và chính tệp đó. Tìm các yêu cầu và đề xuất đối với tệp đầu vào ở phần sau của trang này.