Vertex AI in Firebase yêu cầu hai API khác nhau (mỗi API có hạn mức riêng): API Vertex AI và API Vertex AI in Firebase.
Mỗi API này có một hạn mức được đo lường bằng số yêu cầu mỗi phút (RPM) — cụ thể là các yêu cầu "tạo nội dung" (cả phát trực tuyến và không phát trực tuyến). API Vertex AI cũng có hạn mức cho mã thông báo đầu vào mỗi phút.
Trang này mô tả những nội dung sau:
Tìm hiểu hạn mức cho Vertex AI API và Vertex AI in Firebase API
Xem hạn mức trong bảng điều khiển Google Cloud
Bạn có thể tìm hiểu thông tin chung về hạn mức trong tài liệu về Google Cloud.
Tìm hiểu hạn mức cho từng API
Mỗi API có hạn mức được đo lường theo cách hơi khác nhau, nghĩa là các API này có thể được sử dụng cho nhiều mục đích.
Tìm hiểu về hạn mức API Vertex AI
Hạn mức API Vertex AI dựa trên "Tạo yêu cầu nội dung" trên mỗi mô hình, mỗi khu vực và mỗi phút.
Sau đây là một số thông tin quan trọng về các hạn mức này (cụ thể là số yêu cầu mỗi phút và số mã thông báo đầu vào mỗi phút):
Các chính sách này áp dụng ở cấp dự án và được chia sẻ trên tất cả ứng dụng và địa chỉ IP sử dụng dự án Firebase đó.
Các quy tắc này áp dụng cho mọi lệnh gọi đến Vertex AI Gemini API, cho dù đó là sử dụng SDK ứng dụng Vertex AI in Firebase, SDK máy chủ Vertex AI, Firebase Genkit, Gemini Firebase Extensions, lệnh gọi REST, Vertex AI Studio hoặc ứng dụng API khác.
Các giá trị này áp dụng cho một mô hình cơ sở và tất cả các phiên bản, giá trị nhận dạng và phiên bản được điều chỉnh của mô hình đó. Sau đây là một số ví dụ:
Một yêu cầu đến
gemini-1.0-pro
và một yêu cầu đếngemini-1.0-pro-001
được tính là hai yêu cầu đối với hạn mức RPM của mô hình cơ sở,gemini-1.0 pro
.Một yêu cầu đến
gemini-1.0-pro-001
và một yêu cầu đến mô hình đã điều chỉnh dựa trêngemini-1.0-pro-001
được tính là hai yêu cầu đối với hạn mức RPM của mô hình cơ sở,gemini-1.0-pro
.
Bạn có thể xem hạn mức mặc định cho từng mẫu và từng khu vực trong tài liệu về Google Cloud.
Về cơ bản, bạn có thể coi hạn mức của API này là hạn mức "tổng" cho tất cả người dùng (những người sử dụng các tính năng AI trong ứng dụng của bạn dựa trên một mô hình cụ thể và ở một khu vực cụ thể).
Các hạn mức này cần đủ cao để đáp ứng một cách hợp lý tổng số người dùng cuối ở một khu vực cụ thể có thể sử dụng các tính năng AI dựa trên một mô hình cụ thể. Vì đây là hạn mức theo phút, nên khả năng tất cả người dùng của bạn ở một khu vực sẽ sử dụng cùng một bộ tính năng cùng một lúc và sử dụng hết hạn mức này là tương đối thấp. Tuy nhiên, mỗi ứng dụng đều khác nhau, vì vậy, hãy điều chỉnh các hạn mức này cho phù hợp.
Tìm hiểu hạn mức API Vertex AI in Firebase
Hạn mức API Vertex AI in Firebase dựa trên "Số yêu cầu tạo nội dung" trên mỗi người dùng, mỗi khu vực và mỗi phút.
Sau đây là một số thông tin chi tiết quan trọng về hạn mức này (cụ thể là số yêu cầu mỗi phút):
Chính sách này áp dụng ở cấp dự án và áp dụng cho tất cả ứng dụng và địa chỉ IP sử dụng dự án Firebase đó.
Phương thức này áp dụng cho mọi lệnh gọi cụ thể đi qua bất kỳ SDK Vertex AI in Firebase nào.
Hạn mức mặc định là 100 RPM/người dùng.
Xin lưu ý rằng bạn vẫn cần xem xét các giới hạn hạn mức cho API Vertex AI, đặc biệt là nếu các giới hạn đó thấp hơn 100 RPM này.
Về cơ bản, bạn có thể coi hạn mức của API này là hạn mức "trên mỗi người dùng" cho các tính năng AI dựa trên Vertex AI in Firebase.
Hạn mức này cần đủ cao để đáp ứng một cách hợp lý cho một người dùng truy cập vào các tính năng AI dựa trên Vertex AI in Firebase. Vì API này đóng vai trò là cổng vào API Vertex AI, nên bạn có thể sử dụng hạn mức API Vertex AI in Firebase để đảm bảo rằng không có người dùng nào làm cạn kiệt hạn mức API Vertex AI (được chia sẻ cho tất cả người dùng).
Xem hạn mức cho từng API
Bạn có thể xem hạn mức cho từng API trong bảng điều khiển Google Cloud.
Trong bảng điều khiển Google Cloud, hãy chuyển đến trang của API mà bạn quan tâm: Vertex AI API hoặc Vertex AI in Firebase API.
Nhấp vào Quản lý.
Ở phía dưới trang, hãy nhấp vào thẻ Hạn mức và giới hạn hệ thống.
Lọc bảng để hiển thị các hạn mức mà bạn quan tâm.
Xin lưu ý rằng để tạo bộ lọc
Dimension
, bạn cần sử dụng công cụ bộ lọc thay vì chỉ sao chép và dán các giá trị trong các ví dụ sau.Đối với API Vertex AI: Chỉ định chức năng (yêu cầu tạo nội dung), tên mô hình và khu vực.
Ví dụ: để xem hạn mức tạo yêu cầu nội dung bằng Gemini 1.5 Flash ở bất kỳ khu vực nào được hỗ trợ ở Liên minh Châu Âu, bộ lọc của bạn sẽ có dạng như sau:
Generate content requests
+Dimension:base_model:gemini-1.5-flash
+Dimension:region:eu
Đối với API Vertex AI in Firebase: Chỉ định chức năng (yêu cầu tạo nội dung) và khu vực.
Ví dụ: để xem hạn mức trên mỗi người dùng đối với việc tạo yêu cầu nội dung ở bất kỳ khu vực nào ở Châu Á được hỗ trợ, bộ lọc của bạn sẽ có dạng như sau:
Generate content requests
+Dimension:region:asia
Xin lưu ý rằng hạn mức API Vertex AI in Firebase không dựa trên một mô hình cụ thể. Ngoài ra, hàng hạn mức
(default)
không áp dụng cho Vertex AI in Firebase.
Chỉnh sửa hạn mức hoặc yêu cầu tăng hạn mức
Trước khi chuyển sang môi trường phát hành chính thức hoặc nếu gặp lỗi 429 (lỗi vượt quá hạn mức), bạn có thể cần chỉnh sửa hạn mức hoặc yêu cầu tăng hạn mức. Hãy nhớ điều chỉnh hạn mức của từng API cho phù hợp (xem phần Tìm hiểu hạn mức của từng API ở trên trang này để biết những điều cần cân nhắc).
Để chỉnh sửa hạn mức, bạn phải có quyền serviceusage.quotas.update
. Theo mặc định, quyền này nằm trong vai trò Chủ sở hữu và Người chỉnh sửa.
Dưới đây là cách chỉnh sửa hạn mức hoặc yêu cầu tăng hạn mức:
Làm theo hướng dẫn trong tiểu mục trước để xem hạn mức của từng API.
Chọn hộp đánh dấu ở bên trái của từng hạn mức quan tâm.
Ở cuối hàng hạn mức, hãy nhấp vào trình đơn có biểu tượng ba dấu chấm, sau đó chọn Chỉnh sửa hạn mức.
Trong biểu mẫu Thay đổi hạn mức, hãy làm như sau:
Nhập hạn mức tăng lên trong trường Giá trị mới.
Hạn mức này áp dụng ở cấp dự án và được chia sẻ trên tất cả ứng dụng và địa chỉ IP sử dụng dự án Firebase đó.
Điền vào mọi trường bổ sung trong biểu mẫu, rồi nhấp vào Xong.
Nhấp vào Gửi yêu cầu.