Vertex AI in Firebase memerlukan dua API yang berbeda (masing-masing dengan kuota sendiri): Vertex AI API dan Vertex AI in Firebase API.
Setiap API ini memiliki kuota yang diukur sebagai permintaan per menit (RPM) — khususnya permintaan "buat konten" (baik streaming maupun tanpa streaming). Vertex AI API juga memiliki kuota untuk token input per menit.
Halaman ini menjelaskan hal berikut:
Memahami kuota untuk Vertex AI API dan Vertex AI in Firebase API
Melihat kuota di Google Cloud console
Anda dapat mempelajari informasi umum tentang kuota dalam dokumentasi Google Cloud.
Memahami kuota untuk setiap API
Setiap kuota API diukur dengan cara yang sedikit berbeda, yang berarti kuota tersebut dapat digunakan untuk tujuan yang berbeda.
Memahami kuota API Vertex AI
Kuota API Vertex AI didasarkan pada "Buat permintaan konten" per model per region per menit.
Berikut adalah beberapa detail penting tentang kuota ini (khususnya, permintaan per menit dan token input per menit):
Batas ini berlaku di tingkat project dan digunakan bersama oleh semua aplikasi dan alamat IP yang menggunakan project Firebase tersebut.
Pembatasan ini berlaku untuk setiap panggilan ke Vertex AI Gemini API, baik menggunakan SDK klien Vertex AI in Firebase, SDK server Vertex AI, Firebase Genkit, Firebase Extensions Gemini, panggilan REST, Vertex AI Studio, atau klien API lainnya.
Model ini berlaku untuk model dasar dan semua versi, ID, dan versi yang disesuaikan dari model tersebut. Berikut beberapa contohnya:
Permintaan ke
gemini-1.0-pro
dan permintaan kegemini-1.0-pro-001
dihitung sebagai dua permintaan terhadap kuota RPM model dasar,gemini-1.0 pro
.Permintaan ke
gemini-1.0-pro-001
dan permintaan ke model yang disesuaikan yang didasarkan padagemini-1.0-pro-001
dihitung sebagai dua permintaan terhadap kuota RPM model dasar,gemini-1.0-pro
.
Kuota default untuk setiap model dan untuk setiap wilayah dapat ditemukan dalam dokumentasi Google Cloud.
Pada dasarnya, Anda dapat menganggap kuota API ini sebagai kuota "total" untuk semua pengguna (yang menggunakan fitur AI di aplikasi Anda yang mengandalkan model tertentu dan di wilayah tertentu).
Kuota ini harus cukup tinggi untuk mengakomodasi jumlah total pengguna akhir di wilayah tertentu yang mungkin mengakses fitur AI Anda yang mengandalkan model tertentu. Karena ini adalah kuota per menit, kemungkinan semua pengguna Anda di suatu wilayah akan menggunakan kumpulan fitur yang sama secara bersamaan dan menghabiskan kuota ini relatif kecil. Namun, setiap aplikasi berbeda, jadi sesuaikan kuota ini.
Memahami kuota API Vertex AI in Firebase
Kuota API Vertex AI in Firebase didasarkan pada "Buat permintaan konten" per pengguna per region per menit.
Berikut adalah beberapa detail penting tentang kuota ini (khususnya, permintaan per menit):
Kebijakan ini berlaku di tingkat project dan berlaku untuk semua aplikasi dan alamat IP yang menggunakan project Firebase tersebut.
Hal ini berlaku untuk panggilan apa pun yang secara khusus melalui SDK Vertex AI in Firebase.
Kuota default adalah 100 RPM per pengguna.
Perhatikan bahwa Anda masih perlu mempertimbangkan batas kuota untuk Vertex AI API, terutama jika lebih rendah dari 100 RPM ini.
Pada dasarnya, Anda dapat menganggap kuota API ini sebagai kuota "per pengguna" untuk fitur AI yang mengandalkan Vertex AI in Firebase.
Kuota ini harus cukup tinggi untuk mengakomodasi satu pengguna yang mengakses fitur AI yang mengandalkan Vertex AI in Firebase secara wajar. Karena API ini bertindak sebagai gateway ke Vertex AI API, Anda dapat menggunakan kuota Vertex AI in Firebase API untuk memastikan tidak ada satu pengguna pun yang menghabiskan kuota Vertex AI API Anda (yang dimaksudkan untuk dibagikan oleh semua pengguna Anda).
Melihat kuota untuk setiap API
Anda dapat melihat kuota untuk setiap API di konsol Google Cloud.
Di konsol Google Cloud, buka halaman untuk API yang diinginkan: Vertex AI API atau Vertex AI in Firebase API.
Klik Manage.
Di bagian bawah halaman, klik tab Quotas & System Limits.
Filter tabel untuk menampilkan kuota minat.
Perhatikan bahwa untuk membuat filter
Dimension
, Anda perlu menggunakan alat filter, bukan hanya menyalin dan menempelkan nilai dalam contoh berikut.Untuk Vertex AI API: Tentukan kemampuan (permintaan untuk membuat konten), nama model, dan region.
Misalnya, untuk melihat kuota guna membuat permintaan konten dengan Gemini 1.5 Flash di salah satu wilayah Uni Eropa yang didukung, filter Anda akan terlihat seperti ini:
Generate content requests
+Dimension:base_model:gemini-1.5-flash
+Dimension:region:eu
Untuk Vertex AI in Firebase API: Tentukan kemampuan (permintaan untuk membuat konten) dan wilayah.
Misalnya, untuk melihat kuota per pengguna guna membuat permintaan konten di salah satu wilayah Asia yang didukung, filter Anda akan terlihat seperti ini:
Generate content requests
+Dimension:region:asia
Perhatikan bahwa kuota API Vertex AI in Firebase tidak didasarkan pada model tertentu. Selain itu, baris kuota
(default)
tidak berlaku untuk Vertex AI in Firebase.
Mengedit kuota atau meminta penambahan kuota
Sebelum beralih ke produksi atau jika Anda mendapatkan error 429 kuota terlampaui, Anda mungkin perlu mengedit kuota atau meminta peningkatan kuota. Pastikan Anda menyesuaikan kuota setiap API sebagaimana mestinya (lihat Memahami kuota untuk setiap API sebelumnya di halaman ini untuk pertimbangan).
Untuk mengedit kuota, Anda harus memiliki izin serviceusage.quotas.update
, yang disertakan secara default dalam peran Pemilik dan Editor.
Berikut cara mengedit kuota atau meminta penambahan kuota:
Ikuti petunjuk di subbagian sebelumnya untuk melihat kuota setiap API.
Pilih kotak centang di sebelah kiri setiap kuota minat.
Di akhir baris kuota, klik menu tiga titik, lalu pilih Edit kuota.
Di formulir Perubahan kuota, lakukan hal berikut:
Masukkan penambahan kuota di kolom Nilai baru.
Kuota ini berlaku di tingkat project dan digunakan bersama oleh semua aplikasi dan alamat IP yang menggunakan project Firebase tersebut.
Lengkapi kolom tambahan apa pun di formulir, lalu klik Selesai.
Klik Kirim permintaan.