Obsługiwane pliki wejściowe i wymagania

Gdy wywołujesz Gemini API z aplikacji za pomocą pakietu Firebase AI Logic SDK, możesz poprosić model Gemini o wygenerowanie tekstu na podstawie danych wejściowych multimodalnych, takich jak obrazy, filmy, dźwięk i dokumenty (np. pliki PDF).

Musisz używać obsługiwanych typów plików, określić obsługiwany typ MIME i upewnić się, że Twoje pliki i żądania multimodalne spełniają wymagania i są zgodne ze sprawdzonymi metodami.

Ta strona dotyczy korzystania z GenerativeModel i opisuje te kwestie:

Opcje podawania plików w żądaniach multimodalnych

Wybierz dostawcę interfejsu Gemini API, aby wyświetlić na tej stronie treści dotyczące konkretnego dostawcy

W każdym żądaniu multimodalnym musisz zawsze podać te informacje:

Rozmiar i liczba plików, które możesz podać w żądaniu, zależą od typu pliku wejściowego, sposobu jego podania i używanego modelu (szczegóły znajdziesz w sekcji dotyczącej każdego typu pliku wejściowego na tej stronie).

Opcja 1: podaj plik jako dane wbudowane

Pamiętaj o tych kwestiach dotyczących plików podawanych jako dane wbudowane:

  • Jako dane wbudowane można wysyłać tylko małe pliki, ponieważ łączny limit rozmiaru żądania wynosi 20 MB.

  • Plik jest kodowany do formatu base64 podczas przesyłania (co zwiększa jego rozmiar).

Przykład pokazujący, jak dołączyć plik jako dane wbudowane, znajdziesz w artykule Generowanie tekstu na podstawie danych wejściowych tekstowych i plikowych (multimodalnych). Pamiętaj, że pakiety SDK na platformy Android i Apple mogą obsługiwać obrazy wbudowane w żądania bez konieczności określania typu MIME. Więcej informacji

Opcja 2: podaj plik za pomocą adresu URL

Oto akceptowane typy adresów URL, gdy używasz Gemini Developer API:

  • Adres URL filmu na YouTube: film na YouTube musi być publiczny lub niepubliczny.

    W jednym żądaniu możesz podać 1 adres URL filmu na YouTube.



Obrazy: wymagania, sprawdzone metody i ograniczenia

Obrazy: wymagania

W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących obrazów w żądaniu.

Obsługiwane typy MIME

Gemini modele multimodalne obsługują te typy MIME obrazów:

  • PNG – image/png
  • JPEG – image/jpeg
  • WebP – image/webp

Limity dotyczące żądania

Nie ma konkretnego limitu liczby pikseli w obrazie. Większe obrazy są jednak skalowane i uzupełniane, aby pasowały do maksymalnej rozdzielczości 3072 x 3072, przy zachowaniu oryginalnych proporcji.

Maksymalna liczba plików w żądaniu: 3000 plików graficznych

Obrazy: tokenizacja

Oto jak obliczane są tokeny w przypadku obrazów:

  • Jeśli oba wymiary obrazu są mniejsze lub równe 384 pikselom, używane są 258 tokeny.
  • Jeśli jeden z wymiarów obrazu jest większy niż 384 piksele, obraz jest przycinany do kafelków. Domyślny rozmiar każdego kafelka to najmniejszy wymiar (szerokość lub wysokość) podzielony przez 1,5. W razie potrzeby każdy kafelek jest dostosowywany tak, aby nie był mniejszy niż 256 pikseli i nie większy niż 768 pikseli. Każdy kafelek jest następnie zmieniany do rozmiaru 768 x 768 i używa 258 tokenów.

Grafika: sprawdzone metody

Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje dotyczące obrazów:

  • Jeśli chcesz wykryć tekst na obrazie, używaj promptów z jednym obrazem, aby uzyskać lepsze wyniki niż w przypadku promptów z wieloma obrazami.
  • Jeśli prompt zawiera jeden obraz, umieść go przed promptem tekstowym w żądaniu.
  • Jeśli prompt zawiera kilka obrazów i chcesz się do nich odwołać w prompcie lub chcesz, aby model odwoływał się do nich w odpowiedzi, możesz przed każdym obrazem podać jego indeks. Użyj a b c lub image 1 image 2 image 3 dla swojego indeksu. Oto przykład użycia indeksowanych obrazów w a prompcie:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • Używaj obrazów o wyższej rozdzielczości, aby uzyskać lepsze wyniki.
  • W prompcie podaj kilka przykładów.
  • Przed dodaniem obrazów do prompta obróć je do właściwej orientacji.
  • Unikaj zamazanych obrazów.

Obrazy: ograniczenia

Modele multimodalne Gemini są skuteczne w wielu zastosowaniach multimodalnych , ale ważne jest, aby znać ich ograniczenia:

  • Moderowanie treści: modele odmawiają udzielania odpowiedzi na obrazy, które naruszają nasze zasady bezpieczeństwa.
  • Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów na obrazach. Mogą zwracać tylko przybliżone liczby obiektów.
  • Zastosowania medyczne: modele nie nadają się do interpretowania obrazów medycznych (np. zdjęć rentgenowskich i tomografii komputerowej) ani do udzielania porad medycznych.
  • Rozpoznawanie osób: modele nie są przeznaczone do identyfikowania osób, które nie są celebrytami na obrazach.
  • Dokładność: modele mogą halucynować lub popełniać błędy podczas interpretowania obrazów niskiej jakości, obróconych lub o bardzo niskiej rozdzielczości. Modele mogą też halucynować podczas interpretowania odręcznego tekstu w dokumentach graficznych.



Filmy: wymagania, sprawdzone metody i ograniczenia

Filmy: wymagania

W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących filmów w żądaniu.

Obsługiwane typy MIME

Gemini modele multimodalne obsługują te typy MIME filmów:

  • FLV – video/x-flv
  • MOV – video/quicktime
  • MPEG – video/mpeg
  • MPEGPS – video/mpegps
  • MPG – video/mpg
  • MP4 – video/mp4
  • WEBM – video/webm
  • WMV – video/wmv
  • 3GPP – video/3gpp

Limity dotyczące żądania

Maksymalna liczba plików w żądaniu: 10 plików wideo

Filmy: tokenizacja

Oto jak obliczane są tokeny w przypadku filmów:

  • Ścieżka dźwiękowa jest kodowana za pomocą klatek wideo. Ścieżka dźwiękowa jest też dzielona na 1-sekundowe fragmenty, z których każdy odpowiada 32 tokenom. Tokeny klatek wideo i dźwięku są przeplatane ze znacznikami czasowymi. Znaczniki czasowe są reprezentowane przez 5 tokenów.
  • W przypadku filmów, które są próbkowane z częstotliwością 1 klatki na sekundę lub mniejszą, znaczniki czasowe pierwszej godziny filmu są reprezentowane przez 5 tokenów na klatkę wideo. Pozostałe znaczniki czasowe są reprezentowane przez 7 tokenów na klatkę wideo.
  • W przypadku filmów, które są próbkowane z częstotliwością większą niż 1 klatka na sekundę, znaczniki czasowe pierwszej godziny filmu są reprezentowane przez 9 tokenów na klatkę wideo. Pozostałe znaczniki czasowe są reprezentowane przez 11 tokenów na klatkę wideo.

Filmy: sprawdzone metody

Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje dotyczące filmów:

  • Jeśli prompt zawiera jeden film, umieść go przed promptem tekstowym prompt.
  • Jeśli potrzebujesz lokalizacji znaczników czasowych w filmie z dźwiękiem, poproś model o wygenerowanie znaczników czasowych w formacie opisanym w sekcji „Format znacznika czasowego” .

Filmy: ograniczenia

Modele multimodalne Gemini są skuteczne w wielu zastosowaniach multimodalnych , ale ważne jest, aby znać ich ograniczenia:

  • Moderowanie treści: modele odmawiają udzielania odpowiedzi na filmy, które naruszają nasze zasady bezpieczeństwa.
  • Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.



Dźwięk: wymagania i ograniczenia

Dźwięk: wymagania

W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących dźwięku w żądaniu.

Obsługiwane typy MIME

Gemini modele multimodalne obsługują te typy MIME dźwięku:

  • AAC – audio/aac
  • FLAC – audio/flac
  • MP3 – audio/mp3
  • MPA – audio/m4a
  • MPEG – audio/mpeg
  • MPGA – audio/mpga
  • MP4 – audio/mp4
  • OPUS – audio/opus
  • PCM – audio/pcm
  • WAV – audio/wav
  • WEBM – audio/webm

Limity dotyczące żądania

Maksymalna liczba plików w żądaniu: 1 plik audio

Dźwięk: ograniczenia

Modele multimodalne Gemini są skuteczne w wielu zastosowaniach multimodalnych , ale ważne jest, aby znać ich ograniczenia:

  • Rozpoznawanie dźwięków innych niż mowa: modele obsługujące dźwięk mogą popełniać błędy podczas rozpoznawania dźwięków innych niż mowa.
  • Znaczniki czasowe tylko dla dźwięku: aby dokładnie generować znaczniki czasowe dla plików tylko z dźwiękiem, musisz skonfigurować parametr audio_timestamp w generation_config.



Dokumenty (np. pliki PDF): wymagania, sprawdzone metody i ograniczenia

Dokumenty: wymagania

W tej sekcji dowiesz się więcej o obsługiwanych typach MIME i limitach dotyczących dokumentów (np. plików PDF) w żądaniu.

Obsługiwane typy MIME

Gemini modele multimodalne obsługują te typy MIME dokumentów:

  • PDF – application/pdf
  • Tekst – text/plain

Limity dotyczące żądania

Pliki PDF są traktowane jako obrazy, więc pojedyncza strona pliku PDF jest traktowana jako 1 obraz. Liczba stron dozwolonych w prompcie jest ograniczona do liczby obrazów, które mogą obsługiwać modele Gemini multimodalne.

  • Maksymalna liczba plików w żądaniu: 3000 plików
  • Maksymalna liczba stron w pliku: 1000 stron w pliku
  • Maksymalny rozmiar pliku: 50 MB na plik

Dokumenty: tokenizacja

Tokenizacja plików PDF

Pliki PDF są traktowane jako obrazy, więc każda strona pliku PDF jest tokenizowana w taki sam sposób jak obraz.

Koszt plików PDF jest też zgodny z Gemini cennikiem obrazów. Jeśli na przykład w wywołaniu Gemini interfejsu API uwzględnisz 2-stronicowy plik PDF, poniesiesz opłatę za przetwarzanie 2 obrazów.

Dokumenty: sprawdzone metody

Aby uzyskać najlepsze wyniki, stosuj te sprawdzone metody i informacje dotyczące plików PDF:

  • Jeśli prompt zawiera jeden plik PDF, umieść go przed promptem tekstowym w żądaniu.
  • Jeśli masz długi dokument, rozważ podzielenie go na kilka plików PDF aby go przetworzyć.
  • Używaj plików PDF utworzonych z tekstu renderowanego jako tekst, a nie tekstu w zeskanowanych obrazach. Ten format zapewnia, że tekst jest czytelny dla maszyn, dzięki czemu model może go łatwiej edytować, przeszukiwać i manipulować nim w porównaniu z zeskanowanymi plikami PDF. Ta metoda zapewnia optymalne wyniki podczas pracy z dokumentami zawierającymi dużo tekstu, takimi jak umowy.

Dokumenty: ograniczenia

Modele multimodalne Gemini są skuteczne w wielu zastosowaniach multimodalnych , ale ważne jest, aby znać ich ograniczenia:

  • Rozumowanie przestrzenne: modele nie są dokładne w lokalizowaniu tekstu ani obiektów w plikach PDF. Mogą zwracać tylko przybliżone liczby obiektów.
  • Dokładność: modele mogą halucynować podczas interpretowania odręcznego tekstu w dokumentach PDF.