Khi gọi Vertex AI Gemini API từ ứng dụng của bạn bằng SDK Vertex AI in Firebase, bạn có thể đặt câu lệnh để mô hình Gemini tạo văn bản dựa trên phương thức nhập đa phương thức. Lời nhắc đa phương thức có thể bao gồm nhiều phương thức (hoặc loại dữ liệu đầu vào), chẳng hạn như văn bản cùng với hình ảnh, tệp PDF, video và âm thanh.
Đối với các phần không phải văn bản của dữ liệu đầu vào (chẳng hạn như tệp phương tiện), bạn cần sử dụng các loại tệp được hỗ trợ, chỉ định loại MIME được hỗ trợ và đảm bảo rằng các tệp và yêu cầu đa phương thức của bạn đáp ứng các yêu cầu và tuân thủ các phương pháp hay nhất.
Trang này mô tả các loại MIME được hỗ trợ, các phương pháp hay nhất và hạn chế đối với những mục sau:
Các yêu cầu dành riêng cho SDK Vertex AI in Firebase
Đối với SDK Vertex AI in Firebase, tổng kích thước yêu cầu tối đa là 20 MB. Bạn sẽ gặp lỗi HTTP 413 nếu yêu cầu quá lớn.
Nếu kích thước của một tệp khiến tổng kích thước yêu cầu vượt quá 20 MB, thì hãy sử dụng URL Cloud Storage for Firebase để đưa tệp đó vào yêu cầu đa phương thức.
Nếu tệp có kích thước nhỏ, bạn thường có thể truyền tệp đó trực tiếp dưới dạng dữ liệu nội tuyến. Tuy nhiên, hãy lưu ý rằng tệp được cung cấp dưới dạng dữ liệu nội tuyến sẽ được mã hoá thành base64 trong quá trình truyền, làm tăng kích thước của yêu cầu. Để xem ví dụ về cách đưa tệp vào dưới dạng dữ liệu nội tuyến, hãy xem phần Tạo văn bản từ câu lệnh đa phương thức bằng Gemini API.
Hình ảnh: Yêu cầu, các phương pháp hay nhất và hạn chế
Hình ảnh: Yêu cầu
Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn đối với mỗi yêu cầu đối với hình ảnh.
Loại MIME được hỗ trợ
Các mô hình đa phương thức của Gemini hỗ trợ các loại MIME hình ảnh sau:
Loại MIME hình ảnh | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG – image/png |
|||
JPEG – image/jpeg |
|||
WebP – image/webp |
Giới hạn cho mỗi yêu cầu
Không có giới hạn cụ thể về số lượng pixel trong một hình ảnh. Tuy nhiên, hình ảnh lớn hơn sẽ được điều chỉnh theo tỷ lệ và thêm khoảng đệm để phù hợp với độ phân giải tối đa là 3072 x 3072 trong khi vẫn giữ nguyên tỷ lệ khung hình gốc.
Dưới đây là số lượng tệp hình ảnh tối đa được phép trong một yêu cầu câu lệnh:
- Gemini 1.0 Pro Vision: 16 hình ảnh
- Gemini 1.5 Flash và Gemini 1.5 Pro: 3.000 hình ảnh
Hình ảnh: Mã hoá
Dưới đây là cách tính mã thông báo cho hình ảnh:
- Gemini 1.0 Pro Vision: Mỗi hình ảnh chiếm 258 mã thông báo.
- Gemini 1.5 Flash và Gemini 1.5 Pro:
- Nếu cả hai kích thước của hình ảnh đều nhỏ hơn hoặc bằng 384 pixel, thì 258 mã thông báo sẽ được sử dụng.
- Nếu một kích thước của hình ảnh lớn hơn 384 pixel, thì hình ảnh sẽ được cắt thành ô. Mỗi kích thước thẻ thông tin mặc định là kích thước nhỏ nhất (chiều rộng hoặc chiều cao) chia cho 1,5. Nếu cần, mỗi thẻ thông tin sẽ được điều chỉnh để không nhỏ hơn 256 pixel và không lớn hơn 768 pixel. Sau đó, mỗi thẻ thông tin được đổi kích thước thành 768x768 và sử dụng 258 mã thông báo.
Hình ảnh: Các phương pháp hay nhất
Khi sử dụng hình ảnh, hãy áp dụng các phương pháp hay nhất và thông tin sau đây để có kết quả tốt nhất:
- Nếu bạn muốn phát hiện văn bản trong hình ảnh, hãy sử dụng câu lệnh có một hình ảnh để có kết quả tốt hơn so với câu lệnh có nhiều hình ảnh.
- Nếu câu lệnh của bạn chứa một hình ảnh, hãy đặt hình ảnh đó trước câu lệnh văn bản trong yêu cầu.
- Nếu câu lệnh của bạn chứa nhiều hình ảnh và bạn muốn tham chiếu đến các hình ảnh đó sau này trong câu lệnh hoặc yêu cầu mô hình tham chiếu đến các hình ảnh đó trong phản hồi của mô hình, thì bạn có thể chỉ định chỉ mục cho mỗi hình ảnh trước hình ảnh. Sử dụng
hoặca
b
c
cho chỉ mục của bạn. Sau đây là ví dụ về cách sử dụng hình ảnh được lập chỉ mục trong một lời nhắc:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Sử dụng hình ảnh có độ phân giải cao hơn để có kết quả tốt hơn.
- Đưa một vài ví dụ vào câu lệnh.
- Xoay hình ảnh theo hướng thích hợp trước khi thêm hình ảnh vào lời nhắc.
- Tránh sử dụng hình ảnh bị mờ.
Hình ảnh: Các điểm hạn chế
Mặc dù các mô hình đa phương thức của Gemini rất mạnh mẽ trong nhiều trường hợp sử dụng đa phương thức, nhưng bạn cần hiểu rõ các hạn chế của các mô hình này:
- Quy trình kiểm duyệt nội dung: Người mẫu từ chối trả lời về những hình ảnh vi phạm chính sách an toàn của chúng tôi.
- Suy luận không gian: Các mô hình không chính xác trong việc xác định vị trí văn bản hoặc đối tượng trong hình ảnh. Các phương thức này có thể chỉ trả về số lượng đối tượng được ước tính.
- Mục đích sử dụng y tế: Các mô hình này không phù hợp để diễn giải hình ảnh y tế (ví dụ: X-quang và chụp CT) hoặc đưa ra lời khuyên y tế.
- Nhận dạng người: Các mô hình này không dùng để nhận dạng những người không phải là người nổi tiếng trong hình ảnh.
- Tính chính xác: Các mô hình có thể ảo tưởng hoặc mắc lỗi khi diễn giải hình ảnh chất lượng thấp, bị xoay hoặc có độ phân giải cực thấp. Các mô hình cũng có thể ảo tưởng khi diễn giải văn bản viết tay trong tài liệu hình ảnh.
Video: Yêu cầu, phương pháp hay nhất và giới hạn
Video: Yêu cầu
Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn trên mỗi yêu cầu đối với video.
Loại MIME được hỗ trợ
Các mô hình đa phương thức của Gemini hỗ trợ các loại MIME video sau:
Loại MIME của video | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV – video/x-flv |
|||
MOV – video/quicktime |
|||
MPEG – video/mpeg |
|||
MPEGPS – video/mpegps |
|||
MPG – video/mpg |
|||
MP4 – video/mp4 |
|||
WEBM – video/webm |
|||
WMV – video/wmv |
|||
3GPP – video/3gpp |
Giới hạn cho mỗi yêu cầu
Sau đây là số lượng tệp video tối đa được phép trong một yêu cầu lời nhắc:
- Gemini 1.0 Pro Vision: 1 tệp video
- Gemini 1.5 Flash và Gemini 1.5 Pro: 10 tệp video
Video: Mã hoá
Sau đây là cách tính mã thông báo cho video:
- Tất cả mô hình đa phương thức Gemini: Video được lấy mẫu ở tốc độ
1 khung hình/giây (fps) . Mỗi khung hình video chiếm 258 mã thông báo. - Gemini 1.5 Flash và Gemini 1.5 Pro: Bản âm thanh được mã hoá bằng khung hình video. Bản âm thanh cũng được chia thành
các thân 1 giây , mỗi thân chiếm 32 mã thông báo. Khung video và mã thông báo âm thanh được xen kẽ với dấu thời gian. Các dấu thời gian này được biểu thị dưới dạng 7 mã thông báo.
Video: Các phương pháp hay nhất
Khi dùng video, hãy áp dụng các phương pháp hay nhất và thông tin sau đây để có kết quả tốt nhất:
- Nếu câu lệnh của bạn chứa một video, hãy đặt video đó trước câu lệnh văn bản.
- Nếu bạn cần bản địa hoá dấu thời gian trong một video có âm thanh, hãy yêu cầu mô hình tạo dấu thời gian ở định dạng
MM:SS
, trong đó hai chữ số đầu tiên biểu thị phút và hai chữ số cuối cùng biểu thị giây. Sử dụng cùng một định dạng cho các câu hỏi hỏi về dấu thời gian. Hãy lưu ý những điều sau nếu bạn đang sử dụng Gemini 1.0 Pro Vision:
- Mỗi câu lệnh chỉ được sử dụng một video.
- Mô hình này chỉ xử lý thông tin trong 2 phút đầu của video.
- Mô hình này sẽ xử lý video dưới dạng các khung hình ảnh không liền kề từ video. Không bao gồm âm thanh. Nếu bạn nhận thấy mô hình thiếu một số nội dung trong video, hãy thử rút ngắn video để mô hình có thể chụp được nhiều nội dung hơn trong video.
- Mô hình không xử lý bất kỳ siêu dữ liệu dấu thời gian hay thông tin âm thanh nào. Do đó, mô hình này có thể không hoạt động tốt trong các trường hợp sử dụng yêu cầu đầu vào âm thanh, chẳng hạn như chú thích âm thanh hoặc thông tin liên quan đến thời gian, chẳng hạn như tốc độ hoặc nhịp điệu.
Video: Các điểm hạn chế
Mặc dù các mô hình đa phương thức của Gemini rất mạnh mẽ trong nhiều trường hợp sử dụng đa phương thức, nhưng bạn cần hiểu rõ các hạn chế của các mô hình này:
- Quản lý nội dung: Người mẫu từ chối trả lời câu hỏi về những video vi phạm chính sách an toàn của chúng tôi.
- Nhận dạng âm thanh không phải lời nói: Các mẫu hỗ trợ âm thanh có thể mắc lỗi khi nhận dạng âm thanh không phải lời nói.
- Chuyển động tốc độ cao: Các mô hình có thể mắc lỗi khi hiểu chuyển động tốc độ cao trong video do tốc độ lấy mẫu cố định
1 khung hình/giây (fps) . - Dấu câu để chép lời: (nếu sử dụng Gemini 1.5 Flash) Các mô hình có thể trả về những bản chép lời không chứa dấu câu.
Âm thanh: Yêu cầu và giới hạn
Âm thanh: Yêu cầu
Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn đối với mỗi yêu cầu đối với âm thanh.
Loại MIME được hỗ trợ
Các mô hình đa phương thức Gemini hỗ trợ các loại MIME âm thanh sau đây:
Loại MIME âm thanh | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC – audio/aac |
||
FLAC – audio/flac |
||
MP3 – audio/mp3 |
||
MPA – audio/m4a |
||
MPEG – audio/mpeg |
||
MPGA – audio/mpga |
||
MP4 – audio/mp4 |
||
OPUS – audio/opus |
||
PCM – audio/pcm |
||
WAV – audio/wav |
||
WEBM – audio/webm |
Giới hạn cho mỗi yêu cầu
Bạn có thể thêm tối đa
Âm thanh: Các điểm hạn chế
Mặc dù các mô hình đa phương thức của Gemini rất mạnh mẽ trong nhiều trường hợp sử dụng đa phương thức, nhưng bạn cần hiểu rõ các hạn chế của các mô hình này:
- Nhận dạng âm thanh không phải lời nói: Các mẫu hỗ trợ âm thanh có thể mắc lỗi khi nhận dạng âm thanh không phải lời nói.
- Dấu thời gian chỉ có âm thanh: Để tạo dấu thời gian chính xác cho các tệp chỉ có âm thanh, bạn phải định cấu hình tham số
audio_timestamp
tronggeneration_config
. - Dấu câu trong bản chép lời: (nếu sử dụng Gemini 1.5 Flash) Các mô hình có thể trả về bản chép lời không có dấu câu.
Tài liệu (chẳng hạn như PDF): Yêu cầu, phương pháp hay nhất và giới hạn
Giấy tờ: Yêu cầu
Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn cho mỗi yêu cầu đối với tài liệu (chẳng hạn như PDF).
Các loại MIME được hỗ trợ
Các mô hình đa phương thức của Gemini hỗ trợ các loại MIME tài liệu sau:
Loại MIME của tài liệu | Gemini 1.5 Flash | Gemini 1.5 Pro | Tầm nhìn của Gemini 1.0 Pro |
---|---|---|---|
PDF – application/pdf |
|||
Văn bản – text/plain |
Giới hạn mỗi yêu cầu
Tệp PDF được coi là hình ảnh, vì vậy, một trang của tệp PDF được coi là một hình ảnh. Số trang được phép trong một câu lệnh chỉ giới hạn ở số lượng hình ảnh mà mô hình có thể hỗ trợ:
- Gemini 1.0 Pro Vision: 16 trang
- Gemini 1.5 Pro và Gemini 1.5 Flash: 1.000 trang
Tài liệu: Mã hoá kỹ thuật số
Mã hoá tệp PDF
Tệp PDF được coi là hình ảnh, vì vậy, mỗi trang của tệp PDF được mã hoá theo cách tương tự như hình ảnh.
Ngoài ra, chi phí cho tệp PDF tuân theo giá hình ảnh của Gemini. Ví dụ: nếu đưa một tệp PDF gồm hai trang vào lệnh gọi Gemini API, bạn sẽ phải trả phí đầu vào khi xử lý hai hình ảnh.
Mã hoá văn bản thuần tuý
Tài liệu văn bản thuần tuý được mã hoá dưới dạng văn bản. Ví dụ: nếu đưa một tài liệu văn bản thuần tuý gồm 100 từ vào lệnh gọi API Gemini, bạn sẽ phải trả phí đầu vào để xử lý 100 từ.
Tài liệu: Các phương pháp hay nhất
Khi dùng tệp PDF, hãy áp dụng các phương pháp hay nhất và thông tin sau đây để có kết quả tốt nhất:
- Nếu câu lệnh của bạn chứa một tệp PDF, hãy đặt tệp PDF đó trước câu lệnh văn bản trong yêu cầu.
- Nếu bạn có một tài liệu dài, hãy cân nhắc chia tài liệu đó thành nhiều tệp PDF để xử lý.
- Sử dụng tệp PDF được tạo với văn bản được hiển thị dưới dạng văn bản thay vì sử dụng văn bản trong hình ảnh được quét. Định dạng này đảm bảo văn bản có thể đọc được bằng máy, để mô hình có thể chỉnh sửa, tìm kiếm và thao tác dễ dàng hơn so với các tệp PDF dạng ảnh quét được quét. Phương pháp này mang lại kết quả tối ưu khi làm việc với các tài liệu nhiều văn bản như hợp đồng.
Giấy tờ: Các điểm hạn chế
Mặc dù các mô hình đa phương thức Gemini là mạnh mẽ trong nhiều trường hợp sử dụng đa phương thức, nhưng bạn cần hiểu rõ hạn chế của các mô hình này:
- Suy luận không gian: Các mô hình không chính xác trong việc xác định vị trí văn bản hoặc đối tượng trong tệp PDF. Các phương thức này chỉ có thể trả về số lượng đối tượng gần đúng.
- Tính chính xác: Các mô hình có thể bị ảo giác khi diễn giải văn bản viết tay trong tài liệu PDF.