Check out the latest news from Firebase at Cloud Next 2025. Learn more.

Trang này được dịch bởi Cloud Translation API.

Các tệp đầu vào được hỗ trợ và yêu cầu đối với API Gemini trong Vertex AI
bookmark_border Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Khi gọi Gemini API in Vertex AI từ ứng dụng bằng SDK Vertex AI in Firebase, bạn có thể nhắc mô hình Gemini tạo văn bản dựa trên dữ liệu đầu vào đa phương thức. Lời nhắc đa phương thức có thể bao gồm nhiều phương thức (hoặc loại dữ liệu đầu vào), chẳng hạn như văn bản cùng với hình ảnh, tệp PDF, video và âm thanh.

Đối với các phần không phải văn bản của dữ liệu đầu vào (chẳng hạn như tệp phương tiện), bạn cần sử dụng các loại tệp được hỗ trợ, chỉ định loại MIME được hỗ trợ và đảm bảo rằng các tệp và yêu cầu đa phương thức của bạn đáp ứng các yêu cầu và tuân thủ các phương pháp hay nhất.

Trang này mô tả những nội dung sau:

Các lựa chọn để cung cấp tệp trong yêu cầu của bạn.
Thông tin chi tiết về các loại MIME được hỗ trợ, các phương pháp hay nhất và các giới hạn đối với các đầu vào tệp sau:
Hình ảnh | Video | Âm thanh | Tài liệu (chẳng hạn như tệp PDF).

Các tuỳ chọn để cung cấp tệp trong yêu cầu đa phương thức

Trong mỗi yêu cầu đa phương thức, bạn phải luôn cung cấp những thông tin sau:

mimeType của tệp. Xem các loại MIME được hỗ trợ của từng tệp đầu vào trong phần có liên quan trên trang này.
Tệp. Bạn có thể cung cấp tệp bằng URL / URI của tệp hoặc cung cấp tệp dưới dạng dữ liệu cùng dòng.

Kích thước và số lượng tệp mà bạn có thể cung cấp trong yêu cầu phụ thuộc vào loại tệp đầu vào, cách bạn cung cấp tệp và mô hình được sử dụng (để biết thông tin chi tiết, hãy xem phần của từng loại tệp đầu vào trên trang này).

Cách 1: Cung cấp tệp bằng URL hoặc URI

Dưới đây là các loại URL hoặc URI được chấp nhận:

URL bộ chứa Cloud Storage for Firebase: URL của tệp phải là công khai hoặc người dùng hoặc ứng dụng đã đăng nhập phải có đủ quyền truy cập vào tệp. Tìm hiểu thêm về lợi ích, các yêu cầu về URL và mẫu mã của Cloud Storage for Firebase.
URL bộ chứa Google Cloud Storage: URL của tệp phải là công khai. Ngoài ra, nếu bộ chứa nằm trong một dự án khác với dự án bạn đang sử dụng với Vertex AI in Firebase, hãy sử dụng định dạng https://storage.googleapis.com/BUCKET_NAME/PATH/TO/FILE cho URL.
URL trình duyệt/HTTP: URL của tệp phải có thể đọc công khai. Ví dụ: URL từ các trang web lưu trữ nội dung nghe nhìn, URL hiển thị trực tiếp nội dung nghe nhìn (không phải trang web lưu trữ nội dung nghe nhìn) hoặc tệp Google Drive hoặc Google Workspace đã xuất bản.
URL video trên YouTube: Video trên YouTube phải công khai hoặc không công khai.

Tìm hiểu thêm về các yêu cầu đối với URL và URI trong tài liệu về Google Cloud.

Cách 2: Cung cấp tệp dưới dạng dữ liệu nội tuyến

Lưu ý những điều sau về các tệp được cung cấp dưới dạng dữ liệu nội tuyến:

Bạn chỉ có thể gửi các tệp nhỏ dưới dạng dữ liệu nội tuyến vì tổng giới hạn kích thước yêu cầu là 20 MB.
Tệp được mã hoá thành base64 trong quá trình truyền (khiến kích thước tệp tăng lên).

Để xem ví dụ về cách đưa tệp vào dưới dạng dữ liệu nội tuyến, hãy xem phần Tạo văn bản từ câu lệnh đa phương thức bằng API Gemini.

Hình ảnh: Yêu cầu, phương pháp hay nhất và giới hạn

Hình ảnh: Yêu cầu

Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn cho mỗi yêu cầu đối với hình ảnh.

Loại MIME được hỗ trợ

Các mô hình đa phương thức Gemini hỗ trợ các loại MIME hình ảnh sau:

Loại MIME hình ảnh	Gemini 2.0 Flash	Gemini 2.0 Flash‑Lite
PNG – `image/png`
JPEG – `image/jpeg`
WebP – `image/webp`

Giới hạn cho mỗi yêu cầu

Không có giới hạn cụ thể về số lượng pixel trong một hình ảnh. Tuy nhiên, hình ảnh lớn hơn sẽ được điều chỉnh theo tỷ lệ và thêm vào để phù hợp với độ phân giải tối đa là 3072 x 3072 trong khi vẫn giữ nguyên tỷ lệ khung hình gốc.

Sau đây là số lượng tệp hình ảnh tối đa được phép trong một yêu cầu lời nhắc:

Gemini 2.0 Flash và Gemini 2.0 Flash‑Lite: 3.000 hình ảnh

Hình ảnh: Mã hoá

Dưới đây là cách tính mã thông báo cho hình ảnh:

Gemini 2.0 Flash và Gemini 2.0 Flash‑Lite:
- Nếu cả hai kích thước của hình ảnh đều nhỏ hơn hoặc bằng 384 pixel, thì 258 mã thông báo sẽ được sử dụng.
- Nếu một kích thước của hình ảnh lớn hơn 384 pixel, thì hình ảnh sẽ được cắt thành ô. Mỗi kích thước thẻ thông tin mặc định là kích thước nhỏ nhất (chiều rộng hoặc chiều cao) chia cho 1,5. Nếu cần, mỗi thẻ thông tin sẽ được điều chỉnh để không nhỏ hơn 256 pixel và không lớn hơn 768 pixel. Sau đó, mỗi thẻ thông tin được đổi kích thước thành 768x768 và sử dụng 258 mã thông báo.

Hình ảnh: Các phương pháp hay nhất

Khi sử dụng hình ảnh, hãy áp dụng các phương pháp hay nhất và thông tin sau đây để có kết quả tốt nhất:

Nếu bạn muốn phát hiện văn bản trong hình ảnh, hãy sử dụng câu lệnh có một hình ảnh để có kết quả tốt hơn so với câu lệnh có nhiều hình ảnh.
Nếu câu lệnh của bạn chứa một hình ảnh, hãy đặt hình ảnh đó trước câu lệnh văn bản trong yêu cầu.
Nếu câu lệnh của bạn chứa nhiều hình ảnh và bạn muốn tham chiếu đến các hình ảnh đó sau này trong câu lệnh hoặc yêu cầu mô hình tham chiếu đến các hình ảnh đó trong phản hồi của mô hình, thì bạn có thể đặt chỉ mục trước mỗi hình ảnh. Sử dụng a b c hoặc image 1 image 2 image 3 cho chỉ mục của bạn. Sau đây là ví dụ về cách sử dụng hình ảnh được lập chỉ mục trong một lời nhắc:
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
Sử dụng hình ảnh có độ phân giải cao hơn để có kết quả tốt hơn.
Đưa một vài ví dụ vào câu lệnh.
Xoay hình ảnh theo hướng thích hợp trước khi thêm hình ảnh vào lời nhắc.
Tránh sử dụng hình ảnh bị mờ.

Hình ảnh: Các điểm hạn chế

Mặc dù các mô hình đa phương thức Gemini rất mạnh mẽ trong nhiều trường hợp sử dụng đa phương thức, nhưng bạn cần hiểu rõ các hạn chế của các mô hình này:

Quản lý nội dung: Người mẫu từ chối trả lời về những hình ảnh vi phạm chính sách an toàn của chúng tôi.
Suy luận không gian: Các mô hình không chính xác trong việc xác định vị trí văn bản hoặc đối tượng trong hình ảnh. Các hàm này có thể chỉ trả về số lượng gần đúng của các đối tượng.
Mục đích sử dụng y tế: Các mô hình này không phù hợp để diễn giải hình ảnh y tế (ví dụ: X-quang và chụp CT) hoặc đưa ra lời khuyên y tế.
Nhận dạng người: Các mô hình này không được dùng để xác định những người không phải là người nổi tiếng trong hình ảnh.
Tính chính xác: Các mô hình có thể ảo tưởng hoặc mắc lỗi khi diễn giải hình ảnh có chất lượng thấp, bị xoay hoặc có độ phân giải cực thấp. Các mô hình cũng có thể ảo tưởng khi diễn giải văn bản viết tay trong tài liệu hình ảnh.

Video: Yêu cầu, phương pháp hay nhất và giới hạn

Video: Yêu cầu

Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn cho mỗi yêu cầu về video.

Loại MIME được hỗ trợ

Mô hình đa phương thức Gemini hỗ trợ các loại MIME video sau:

Loại MIME của video	Gemini 2.0 Flash	Gemini 2.0 Flash‑Lite
FLV – `video/x-flv`
MOV – `video/quicktime`
MPEG – `video/mpeg`
MPEGPS – `video/mpegps`
MPG – `video/mpg`
MP4 – `video/mp4`
WEBM – `video/webm`
WMV – `video/wmv`
3GPP – `video/3gpp`

Giới hạn cho mỗi yêu cầu

Sau đây là số lượng tệp video tối đa được phép trong một yêu cầu lời nhắc:

Gemini 2.0 Flash và Gemini 2.0 Flash‑Lite: 10 tệp video

Video: Mã hoá kỹ thuật số

Dưới đây là cách tính mã thông báo cho video:

Gemini 2.0 Flash và Gemini 2.0 Flash‑Lite: Bản âm thanh được mã hoá bằng các khung video. Bản âm thanh cũng được chia thành các thân 1 giây, mỗi thân chiếm 32 mã thông báo. Khung video và mã thông báo âm thanh được xen kẽ với dấu thời gian. Dấu thời gian được biểu thị dưới dạng 7 mã thông báo.
Tất cả mô hình đa phương thức của Gemini: Video được lấy mẫu ở tốc độ 1 khung hình/giây (fps). Mỗi khung hình video chiếm 258 mã thông báo.

Video: Các phương pháp hay nhất

Khi sử dụng video, hãy áp dụng các phương pháp hay nhất và thông tin sau đây để đạt được kết quả tốt nhất:

Nếu câu lệnh của bạn chứa một video, hãy đặt video đó trước câu lệnh dạng văn bản.
Nếu bạn cần bản địa hoá dấu thời gian trong một video có âm thanh, hãy yêu cầu mô hình tạo dấu thời gian ở định dạng MM:SS, trong đó hai chữ số đầu tiên biểu thị phút và hai chữ số cuối cùng biểu thị giây. Sử dụng cùng một định dạng cho các câu hỏi hỏi về dấu thời gian.

Video: Các điểm hạn chế

Quản lý nội dung: Người mẫu từ chối trả lời câu hỏi về những video vi phạm chính sách an toàn của chúng tôi.
Nhận dạng âm thanh không phải lời nói: Các mẫu hỗ trợ âm thanh có thể mắc lỗi khi nhận dạng âm thanh không phải lời nói.
Chuyển động tốc độ cao: Các mô hình có thể mắc lỗi khi hiểu chuyển động tốc độ cao trong video do tốc độ lấy mẫu cố định là 1 khung hình/giây (fps).

Âm thanh: Yêu cầu và giới hạn

Âm thanh: Yêu cầu

Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn cho mỗi yêu cầu về âm thanh.

Loại MIME được hỗ trợ

Các mô hình đa phương thức Gemini hỗ trợ các loại MIME âm thanh sau:

Loại MIME âm thanh	Gemini 2.0 Flash	Gemini 2.0 Flash‑Lite
AAC – `audio/aac`
FLAC – `audio/flac`
MP3 – `audio/mp3`
MPA – `audio/m4a`
MPEG – `audio/mpeg`
MPGA – `audio/mpga`
MP4 – `audio/mp4`
OPUS – `audio/opus`
PCM – `audio/pcm`
WAV – `audio/wav`
WEBM – `audio/webm`

Giới hạn cho mỗi yêu cầu

Bạn có thể đưa vào tối đa 1 tệp âm thanh trong một yêu cầu lời nhắc.

Âm thanh: Các điểm hạn chế

Nhận dạng âm thanh không phải lời nói: Các mẫu hỗ trợ âm thanh có thể mắc lỗi khi nhận dạng âm thanh không phải lời nói.
Dấu thời gian chỉ có âm thanh: Để tạo dấu thời gian chính xác cho các tệp chỉ có âm thanh, bạn phải định cấu hình tham số audio_timestamp trong generation_config.

Tài liệu (chẳng hạn như PDF): Yêu cầu, phương pháp hay nhất và giới hạn

Giấy tờ: Yêu cầu

Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn cho mỗi yêu cầu đối với tài liệu (chẳng hạn như PDF).

Loại MIME được hỗ trợ

Các mô hình đa phương thức Gemini hỗ trợ các loại MIME tài liệu sau:

Loại MIME của tài liệu	Gemini 2.0 Flash	Gemini 2.0 Flash‑Lite
PDF – `application/pdf`
Văn bản – `text/plain`

Giới hạn cho mỗi yêu cầu

Tệp PDF được coi là hình ảnh, vì vậy, một trang của tệp PDF được coi là một hình ảnh. Số trang được phép trong một câu lệnh chỉ giới hạn ở số lượng hình ảnh mà mô hình có thể hỗ trợ:

Gemini 2.0 Flash và Gemini 2.0 Flash‑Lite:
- Số tệp tối đa mỗi yêu cầu: 3.000
- Số trang tối đa trên mỗi tệp: 1.000
- Kích thước tối đa của mỗi tệp: 50 MB

Tài liệu: Mã hoá kỹ thuật số

Mã hoá PDF

Tệp PDF được coi là hình ảnh, vì vậy, mỗi trang của tệp PDF được mã hoá theo cách tương tự như hình ảnh.

Ngoài ra, chi phí cho tệp PDF tuân theo chính sách định giá hình ảnh Gemini. Ví dụ: nếu thêm tệp PDF gồm hai trang vào lệnh gọi API Gemini, bạn sẽ phải trả phí đầu vào để xử lý hai hình ảnh.

Mã hoá văn bản thuần tuý

Tài liệu văn bản thuần tuý được mã hoá dưới dạng văn bản. Ví dụ: nếu bạn đưa một tài liệu văn bản thuần tuý gồm 100 từ vào lệnh gọi API Gemini, thì bạn sẽ phải trả phí đầu vào để xử lý 100 từ.

Tài liệu: Các phương pháp hay nhất

Khi sử dụng tệp PDF, hãy áp dụng các phương pháp hay nhất và thông tin sau đây để có kết quả tốt nhất:

Nếu câu lệnh của bạn chứa một tệp PDF, hãy đặt tệp PDF đó trước câu lệnh văn bản trong yêu cầu.
Nếu bạn có một tài liệu dài, hãy cân nhắc chia tài liệu đó thành nhiều tệp PDF để xử lý.
Sử dụng tệp PDF được tạo bằng văn bản được kết xuất dưới dạng văn bản thay vì sử dụng văn bản trong hình ảnh được quét. Định dạng này đảm bảo văn bản có thể đọc được bằng máy để mô hình dễ chỉnh sửa, tìm kiếm và thao tác hơn so với PDF hình ảnh được quét. Phương pháp này mang lại kết quả tối ưu khi xử lý các tài liệu có nhiều văn bản như hợp đồng.

Giấy tờ: Các điểm hạn chế

Suy luận không gian: Các mô hình không chính xác trong việc xác định vị trí văn bản hoặc đối tượng trong tệp PDF. Các hàm này có thể chỉ trả về số lượng gần đúng của các đối tượng.
Tính chính xác: Các mô hình có thể bị ảo giác khi diễn giải văn bản viết tay trong tài liệu PDF.

Các tệp đầu vào được hỗ trợ và yêu cầu đối với API Gemini trong Vertex AI bookmark_borderbookmark Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Các tuỳ chọn để cung cấp tệp trong yêu cầu đa phương thức

Cách 1: Cung cấp tệp bằng URL hoặc URI

Cách 2: Cung cấp tệp dưới dạng dữ liệu nội tuyến

Hình ảnh: Yêu cầu, phương pháp hay nhất và giới hạn

Hình ảnh: Yêu cầu

Loại MIME được hỗ trợ

Giới hạn cho mỗi yêu cầu

Hình ảnh: Mã hoá

Hình ảnh: Các phương pháp hay nhất

Hình ảnh: Các điểm hạn chế

Video: Yêu cầu, phương pháp hay nhất và giới hạn

Video: Yêu cầu

Loại MIME được hỗ trợ

Giới hạn cho mỗi yêu cầu

Video: Mã hoá kỹ thuật số

Video: Các phương pháp hay nhất

Video: Các điểm hạn chế

Âm thanh: Yêu cầu và giới hạn

Âm thanh: Yêu cầu

Loại MIME được hỗ trợ

Giới hạn cho mỗi yêu cầu

Âm thanh: Các điểm hạn chế

Tài liệu (chẳng hạn như PDF): Yêu cầu, phương pháp hay nhất và giới hạn

Giấy tờ: Yêu cầu

Loại MIME được hỗ trợ

Giới hạn cho mỗi yêu cầu

Tài liệu: Mã hoá kỹ thuật số

Tài liệu: Các phương pháp hay nhất

Giấy tờ: Các điểm hạn chế

Các tệp đầu vào được hỗ trợ và yêu cầu đối với API Gemini trong Vertex AI
bookmark_border Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.