Các tệp đầu vào và yêu cầu được hỗ trợ

Khi gọi Gemini API từ ứng dụng bằng Firebase AI Logic SDK, bạn có thể đưa ra câu lệnh cho mô hình Gemini để tạo văn bản dựa trên dữ liệu đầu vào đa phương thức, chẳng hạn như hình ảnh, video và âm thanh, cũng như tài liệu (như tệp PDF).

Bạn cần sử dụng các loại tệp được hỗ trợ, chỉ định loại MIME được hỗ trợ và đảm bảo rằng các tệp và yêu cầu đa phương thức đáp ứng các yêu cầu và tuân theo các phương pháp hay nhất.

Trang này dành riêng cho việc sử dụng GenerativeModel và mô tả những điều sau:

Các lựa chọn để cung cấp tệp trong yêu cầu đa phương thức

Chọn nhà cung cấp Gemini API để xem nội dung dành riêng cho nhà cung cấp trên trang này

Trong mỗi yêu cầu đa phương thức, bạn phải luôn cung cấp những thông tin sau:

Kích thước và số lượng tệp mà bạn có thể cung cấp trong yêu cầu được xác định bởi loại tệp đầu vào, cách bạn cung cấp tệp và mô hình được sử dụng (để biết thông tin chi tiết, hãy xem phần về từng loại tệp đầu vào trên trang này).

Lựa chọn 1: Cung cấp tệp dưới dạng dữ liệu cùng dòng

Xin lưu ý những điều sau về các tệp được cung cấp dưới dạng dữ liệu cùng dòng:

  • Chỉ các tệp nhỏ mới có thể được gửi dưới dạng dữ liệu nội tuyến vì giới hạn kích thước yêu cầu tổng cộng là 20 MB.

  • Tệp được mã hoá thành base64 trong quá trình truyền (điều này làm tăng kích thước tệp).

Để xem ví dụ minh hoạ cách đưa tệp vào dưới dạng dữ liệu cùng dòng, hãy xem bài viết Tạo văn bản từ dữ liệu đầu vào dạng văn bản và tệp (đa phương thức). Xin lưu ý rằng SDK cho nền tảng Android và Apple có thể xử lý hình ảnh nội tuyến trong các yêu cầu mà không cần chỉ định loại MIME. Tìm hiểu thêm.

Lựa chọn 2: Cung cấp tệp bằng URL

Dưới đây là các loại URL được chấp nhận khi sử dụng Gemini Developer API:

  • URL video trên YouTube: Video trên YouTube phải là công khai hoặc không công khai.

    Bạn có thể chỉ định một URL video trên YouTube cho mỗi yêu cầu.



Hình ảnh: Yêu cầu, các phương pháp hay nhất và giới hạn

Hình ảnh: Yêu cầu

Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn cho mỗi yêu cầu đối với hình ảnh.

Loại MIME được hỗ trợ

Gemini Các mô hình đa phương thức hỗ trợ các loại MIME hình ảnh sau:

  • PNG – image/png
  • JPEG – image/jpeg
  • WebP – image/webp

Giới hạn cho mỗi yêu cầu

Không có giới hạn cụ thể về số lượng pixel trong một hình ảnh. Tuy nhiên, các hình ảnh lớn hơn sẽ được thu nhỏ và thêm phần đệm để phù hợp với độ phân giải tối đa là 3072 x 3072 trong khi vẫn giữ nguyên tỷ lệ khung hình gốc.

Số lượng tệp tối đa cho mỗi yêu cầu: 3.000 tệp hình ảnh

Hình ảnh: Mã hoá kỹ thuật số

Sau đây là cách tính toán mã thông báo cho hình ảnh:

  • Nếu cả hai chiều của một hình ảnh đều nhỏ hơn hoặc bằng 384 pixel, thì 258 mã thông báo sẽ được sử dụng.
  • Nếu một chiều của hình ảnh lớn hơn 384 pixel, thì hình ảnh đó sẽ được cắt thành các ô. Kích thước mặc định của mỗi ô là chiều nhỏ nhất chiều (chiều rộng hoặc chiều cao) chia cho 1,5. Nếu cần, mỗi ô sẽ được điều chỉnh để không nhỏ hơn 256 pixel và không lớn hơn 768 pixel. Sau đó, mỗi ô sẽ được đổi kích thước thành 768x768 và sử dụng 258 mã thông báo.

Hình ảnh: Các phương pháp hay nhất

Khi sử dụng hình ảnh, hãy áp dụng các phương pháp hay nhất và thông tin sau đây để có kết quả tốt nhất:

  • Nếu bạn muốn phát hiện văn bản trong một hình ảnh, hãy sử dụng câu lệnh có một hình ảnh để tạo ra kết quả tốt hơn so với câu lệnh có nhiều hình ảnh.
  • Nếu câu lệnh của bạn chứa một hình ảnh, hãy đặt hình ảnh đó trước câu lệnh dạng văn bản trong yêu cầu.
  • Nếu câu lệnh của bạn chứa nhiều hình ảnh và bạn muốn tham chiếu đến các hình ảnh đó sau này trong câu lệnh hoặc muốn mô hình tham chiếu đến các hình ảnh đó trong câu trả lời của mô hình, thì bạn có thể thêm chỉ mục cho từng hình ảnh trước hình ảnh đó. Sử dụng a b c hoặc image 1 image 2 image 3 cho chỉ mục. Sau đây là ví dụ về cách sử dụng hình ảnh được lập chỉ mục trong câu lệnh:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • Sử dụng hình ảnh có độ phân giải cao hơn; hình ảnh có độ phân giải cao hơn sẽ mang lại kết quả tốt hơn.
  • Đưa một vài ví dụ vào câu lệnh.
  • Xoay hình ảnh về đúng hướng trước khi thêm vào câu lệnh.
  • Tránh sử dụng hình ảnh bị mờ.

Hình ảnh: Giới hạn

Mặc dù các mô hình đa phương thức Gemini rất mạnh mẽ trong nhiều trường hợp sử dụng đa phương thức, nhưng bạn cần hiểu rõ các giới hạn của mô hình:

  • Kiểm duyệt nội dung: Các mô hình từ chối cung cấp câu trả lời về những hình ảnh vi phạm chính sách an toàn của chúng tôi.
  • Suy luận không gian: Các mô hình không chính xác trong việc xác định vị trí văn bản hoặc đối tượng trong hình ảnh. Các mô hình có thể chỉ trả về số lượng đối tượng được ước tính.
  • Sử dụng trong y tế: Các mô hình không phù hợp để diễn giải hình ảnh y tế (ví dụ: ảnh chụp X-quang và ảnh chụp CT) hoặc đưa ra lời khuyên y tế.
  • Nhận dạng người: Các mô hình không được dùng để xác định những người không phải là người nổi tiếng trong hình ảnh.
  • Độ chính xác: Các mô hình có thể tạo ra thông tin không có thật hoặc mắc lỗi khi diễn giải hình ảnh có chất lượng thấp, bị xoay hoặc có độ phân giải cực thấp. Các mô hình cũng có thể tạo ra thông tin không có thật khi diễn giải văn bản viết tay trong tài liệu hình ảnh.



Video: Yêu cầu, các phương pháp hay nhất và giới hạn

Video: Yêu cầu

Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn cho mỗi yêu cầu đối với video.

Loại MIME được hỗ trợ

Gemini các mô hình đa phương thức hỗ trợ các loại MIME video sau:

  • FLV – video/x-flv
  • MOV – video/quicktime
  • MPEG – video/mpeg
  • MPEGPS – video/mpegps
  • MPG – video/mpg
  • MP4 – video/mp4
  • WEBM – video/webm
  • WMV – video/wmv
  • 3GPP – video/3gpp

Giới hạn cho mỗi yêu cầu

Số lượng tệp tối đa cho mỗi yêu cầu: 10 tệp video

Video: Mã hoá kỹ thuật số

Sau đây là cách tính toán mã thông báo cho video:

  • Bản âm thanh được mã hoá bằng khung hình video. Bản âm thanh cũng được chia thành các đoạn dài 1 giây, mỗi đoạn chiếm 32 mã thông báo. Khung hình video và mã thông báo âm thanh được xen kẽ với dấu thời gian tương ứng. Dấu thời gian được biểu thị dưới dạng 5 mã thông báo.
  • Đối với những video được lấy mẫu ở mức 1 khung hình/giây (fps) trở xuống, dấu thời gian cho giờ đầu tiên của video được biểu thị dưới dạng 5 mã thông báo cho mỗi khung hình video. Các dấu thời gian còn lại được biểu thị dưới dạng 7 mã thông báo cho mỗi khung hình video.
  • Đối với những video được lấy mẫu ở mức trên 1 khung hình/giây (fps), dấu thời gian cho giờ đầu tiên của video được biểu thị dưới dạng 9 mã thông báo cho mỗi khung hình video. Các dấu thời gian còn lại được biểu thị dưới dạng 11 mã thông báo cho mỗi khung hình video.

Video: Các phương pháp hay nhất

Khi sử dụng video, hãy áp dụng các phương pháp hay nhất và thông tin sau đây để có kết quả tốt nhất:

  • Nếu câu lệnh của bạn chứa một video, hãy đặt video đó trước câu lệnh dạng văn bản prompt.
  • Nếu bạn yêu cầu bản địa hoá dấu thời gian trong một video có âm thanh, hãy yêu cầu mô hình tạo dấu thời gian theo định dạng như mô tả trong phần "Định dạng dấu thời gian".

Video: Giới hạn

Mặc dù các mô hình đa phương thức Gemini rất mạnh mẽ trong nhiều trường hợp sử dụng đa phương thức, nhưng bạn cần hiểu rõ các giới hạn của mô hình:

  • Kiểm duyệt nội dung: Các mô hình từ chối cung cấp câu trả lời về những video vi phạm chính sách an toàn của chúng tôi.
  • Nhận dạng âm thanh không phải lời nói: Các mô hình hỗ trợ âm thanh có thể mắc lỗi khi nhận dạng âm thanh không phải lời nói.



Âm thanh: Yêu cầu và giới hạn

Âm thanh: Yêu cầu

Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn cho mỗi yêu cầu đối với âm thanh.

Loại MIME được hỗ trợ

Gemini các mô hình đa phương thức hỗ trợ các loại MIME âm thanh sau:

  • AAC – audio/aac
  • FLAC – audio/flac
  • MP3 – audio/mp3
  • MPA – audio/m4a
  • MPEG – audio/mpeg
  • MPGA – audio/mpga
  • MP4 – audio/mp4
  • OPUS – audio/opus
  • PCM – audio/pcm
  • WAV – audio/wav
  • WEBM – audio/webm

Giới hạn cho mỗi yêu cầu

Số lượng tệp tối đa cho mỗi yêu cầu: 1 tệp âm thanh

Âm thanh: Giới hạn

Mặc dù các mô hình đa phương thức Gemini rất mạnh mẽ trong nhiều trường hợp sử dụng đa phương thức, nhưng bạn cần hiểu rõ các giới hạn của mô hình:

  • Nhận dạng âm thanh không phải lời nói: Các mô hình hỗ trợ âm thanh có thể mắc lỗi khi nhận dạng âm thanh không phải lời nói.
  • Dấu thời gian chỉ có âm thanh: Để tạo dấu thời gian chính xác cho các tệp chỉ có âm thanh, bạn phải định cấu hình tham số audio_timestamp trong generation_config.



Tài liệu (như tệp PDF): Yêu cầu, các phương pháp hay nhất và giới hạn

Tài liệu: Yêu cầu

Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn cho mỗi yêu cầu đối với tài liệu (như tệp PDF).

Loại MIME được hỗ trợ

Các mô hình đa phương thức Gemini hỗ trợ các loại MIME tài liệu sau:

  • PDF – application/pdf
  • Văn bản – text/plain

Giới hạn cho mỗi yêu cầu

Tệp PDF được xử lý như hình ảnh, vì vậy, một trang của tệp PDF được xử lý như một hình ảnh. Số lượng trang được phép trong một câu lệnh bị giới hạn ở số lượng hình ảnh mà các mô hình đa phương thức Gemini có thể hỗ trợ.

  • Số lượng tệp tối đa cho mỗi yêu cầu: 3.000 tệp
  • Số lượng trang tối đa cho mỗi tệp: 1.000 trang cho mỗi tệp
  • Kích thước tối đa cho mỗi tệp: 50 MB cho mỗi tệp

Tài liệu: Mã hoá kỹ thuật số

Mã hoá kỹ thuật số tệp PDF

Tệp PDF được xử lý như hình ảnh, vì vậy, mỗi trang của tệp PDF được mã hoá kỹ thuật số theo cách tương tự như hình ảnh.

Ngoài ra, chi phí cho tệp PDF tuân theo Gemini mức giá hình ảnh. Ví dụ: nếu bạn đưa một tệp PDF gồm hai trang vào lệnh gọi API Gemini, bạn phải trả phí đầu vào để xử lý hai hình ảnh.

Tài liệu: Các phương pháp hay nhất

Khi sử dụng tệp PDF, hãy áp dụng các phương pháp hay nhất và thông tin sau đây để có kết quả tốt nhất:

  • Nếu câu lệnh của bạn chứa một tệp PDF, hãy đặt tệp PDF đó trước câu lệnh dạng văn bản trong yêu cầu.
  • Nếu bạn có một tài liệu dài, hãy cân nhắc chia tài liệu đó thành nhiều tệp PDF để xử lý.
  • Sử dụng tệp PDF được tạo bằng văn bản được hiển thị dưới dạng văn bản thay vì sử dụng văn bản trong hình ảnh được quét. Định dạng này đảm bảo văn bản có thể đọc được bằng máy để mô hình dễ dàng chỉnh sửa, tìm kiếm và thao tác hơn so với tệp PDF hình ảnh được quét. Phương pháp này mang lại kết quả tối ưu khi làm việc với các tài liệu có nhiều văn bản như hợp đồng.

Tài liệu: Giới hạn

Mặc dù các mô hình đa phương thức Gemini rất mạnh mẽ trong nhiều trường hợp sử dụng đa phương thức, nhưng bạn cần hiểu rõ các giới hạn của mô hình:

  • Suy luận không gian: Các mô hình không chính xác trong việc xác định vị trí văn bản hoặc đối tượng trong tệp PDF. Các mô hình có thể chỉ trả về số lượng đối tượng được ước tính.
  • Độ chính xác: Các mô hình có thể tạo ra thông tin không có thật khi diễn giải văn bản viết tay trong tài liệu PDF.