Vertex \nAI Gemini {7}API için desteklenen giriş dosyaları ve gereksinimleri

Vertex AI in Firebase SDK'sını kullanarak uygulamanızdan Vertex AI Gemini API'ü çağırırken Gemini modelinden çok modlu girişe dayalı metin oluşturmasını isteyebilirsiniz. Çok modlu istemler, metin, resim, PDF, video ve ses gibi birden fazla modu (veya giriş türünü) içerebilir.

Girişteki metin olmayan bölümler (ör. medya dosyaları) için desteklenen dosya türlerini kullanmanız, desteklenen bir MIME türü belirtmeniz ve dosyalarınızın ve çok modlu isteklerinizin koşulları karşıladığından ve en iyi uygulamalara uyduğundan emin olmanız gerekir.

Bu sayfada, aşağıdakiler için desteklenen MIME türleri, en iyi uygulamalar ve sınırlamalar açıklanmaktadır:

Vertex AI in Firebase SDK'larına özel koşullar

Vertex AI in Firebase SDK için maksimum toplam istek boyutu 20 MB'tır. İstek çok büyükse HTTP 413 hatası alırsınız.



Resimler: Şartlar, en iyi uygulamalar ve sınırlamalar

Resimler: Şartlar

Bu bölümde, resimler için desteklenen MIME türleri ve istek başına sınırlar hakkında bilgi edineceksiniz.

Desteklenen MIME türleri

Gemini çok formatlı modelleri aşağıdaki resim MIME türlerini destekler:

Resim MIME türü Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG - image/png
JPEG - image/jpeg
WebP - image/webp

İstek başına sınırlar

Bir resimdeki piksel sayısı için belirli bir sınır yoktur. Ancak daha büyük resimler, orijinal en boy oranları korunarak 3072 x 3072 maksimum çözünürlüğe sığacak şekilde küçültülür ve doldurulur.

Bir istem isteğinde izin verilen maksimum resim dosyası sayısı aşağıda verilmiştir:

  • Gemini 1.0 Pro Vision: 16 resim
  • Gemini 1.5 Flash ve Gemini 1.5 Pro: 3.000 resim

Resimler: Belirtme

Resimler için jetonların nasıl hesaplandığı aşağıda açıklanmıştır:

  • Gemini 1.0 Pro Vision: Her resim 258 jetona karşılık gelir.
  • Gemini 1.5 Flash ve Gemini 1.5 Pro:
    • Bir resmin her iki boyutu da 384 pikselden küçük veya eşitse 258 jeton kullanılır.
    • Bir resmin boyutlarından biri 384 pikselden büyükse resim, karolara bölünerek kırpılır. Her karo boyutu varsayılan olarak en küçük boyutun (genişlik veya yükseklik) 1,5'e bölünmesiyle elde edilir. Gerekirse her karo 256 pikselden küçük ve 768 pikselden büyük olmayacak şekilde ayarlanır. Ardından her karo 768x768 olarak yeniden boyutlandırılır ve 258 jeton kullanılır.

Resimler: En iyi uygulamalar

En iyi sonuçlar için resim kullanırken aşağıdaki en iyi uygulamaları ve bilgileri kullanın:

  • Bir resimdeki metni algılamak istiyorsanız birden fazla resim içeren istemlere kıyasla daha iyi sonuçlar elde etmek için tek resim içeren istemler kullanın.
  • İsteminiz tek bir resim içeriyorsa resmi isteğinizde metin isteminden önce yerleştirin.
  • İsteminiz birden fazla resim içeriyorsa ve bu resimlere isteminizde daha sonra referans vermek istiyorsanız veya modelin model yanıtında bu resimlere referans vermesini istiyorsanız her resme resimden önce bir dizin eklemeniz faydalı olabilir. Dizininiz için a b c veya image 1 image 2 image 3 kullanın. Aşağıda, dizine eklenen resimlerin bir istemde kullanımına dair bir örnek verilmiştir:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • Daha yüksek çözünürlüklü resimler kullanın. Bu resimler daha iyi sonuçlar verir.
  • İsteminize birkaç örnek ekleyin.
  • Resimleri istem kutusuna eklemeden önce doğru yönde döndürün.
  • Bulanık resimler kullanmayın.

Görseller: Sınırlamalar

Gemini çoklu modelleri birçok çoklu kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:

  • İçerik moderasyon: Modeller, güvenlik politikalarımızı ihlal eden resimlerle ilgili soruları yanıtlamayı reddeder.
  • Uzamsal akıl yürütme: Modeller, görüntülerdeki metin veya nesnelerin yerini belirlemede hassas değildir. Yalnızca yaklaşık nesnelerin sayısını döndürebilirler.
  • Tıbbi kullanımlar: Modeller, tıbbi görüntüleri (ör. röntgen ve CT taramaları) yorumlamak veya tıbbi tavsiye vermek için uygun değildir.
  • Kişi tanıma: Modellerin, resimlerde ünlü olmayan kişileri tanımlamak için kullanılması amaçlanmamıştır.
  • Doğruluk: Modeller düşük kaliteli, döndürülmüş veya çok düşük çözünürlüklü resimleri yorumlarken halüsinasyon sorunu yaşayabilir ya da hata yapabilir. Modeller ayrıca resim dokümanlarında el yazısı metinleri yorumlarken halüsinasyon sorunu yaşayabilir.



Video: Şartlar, en iyi uygulamalar ve sınırlamalar

Video: Şartlar

Bu bölümde, video için desteklenen MIME türleri ve istek başına sınırlar hakkında bilgi edineceksiniz.

Desteklenen MIME türleri

Gemini çok formatlı modelleri aşağıdaki video MIME türlerini destekler:

Video MIME türü Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

İstek başına sınırlar

Bir istem isteğinde izin verilen maksimum video dosyası sayısı aşağıda belirtilmiştir:

  • Gemini 1.0 Pro Vision: 1 video dosyası
  • Gemini 1.5 Flash ve Gemini 1.5 Pro: 10 video dosyası

Video: Belirtme

Video için jetonlar şu şekilde hesaplanır:

  • Tüm çoklu formatlı Gemini modelleri: Videolar saniyede 1 kare (fps) hızında örneklenir. Her video karesi 258 jeton olarak kabul edilir.
  • Gemini 1.5 Flash ve Gemini 1.5 Pro: Ses parçası, video kareleriyle kodlanır. Ses parçası da her biri 32 jetona karşılık gelen 1 saniyelik kısa santrallere ayrılır. Video karesi ve ses jetonları, zaman damgalarıyla birlikte iç içe yerleştirilir. Zaman damgaları 7 jeton olarak gösterilir.

Video: En iyi uygulamalar

Video kullanırken en iyi sonuçlar için aşağıdaki en iyi uygulamaları ve bilgileri kullanın:

  • İsteminizde tek bir video varsa videoyu metin isteminin önüne yerleştirin.
  • Sesli bir videoda zaman damgası yerelleştirmesi gerekiyorsa modelden, ilk iki basamağın dakikaları, son iki basamağın ise saniyeleri temsil ettiği MM:SS biçiminde zaman damgaları oluşturmasını isteyin. Bir zaman damgasıyla ilgili sorular için aynı biçimi kullanın.
  • Gemini 1.0 Pro Vision kullanıyorsanız aşağıdakileri göz önünde bulundurun:

    • İstem başına birden fazla video kullanmayın.
    • Model yalnızca videonun ilk iki dakikasındaki bilgileri işler.
    • Model, videoları videodaki birbirine bitişik olmayan resim kareleri olarak işler. Ses dahil değildir. Modelin videoda bazı içerikleri kaçırdığını fark ederseniz modelin video içeriğinin daha büyük bir bölümünü yakalaması için videoyu kısaltmayı deneyin.
    • Model, ses bilgilerini veya zaman damgası meta verilerini işlemez. Bu nedenle model, altyazı ekleme gibi ses girişi veya hız ya da ritim gibi zamanla ilgili bilgiler gibi kullanım alanlarında iyi performans göstermeyebilir.

Video: Sınırlamalar

Gemini çok modlu modelleri, birçok çok modlu kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:

  • İçerik moderasyon: Modeller, güvenlik politikalarımızı ihlal eden videolarda yanıt vermeyi reddediyor.
  • Konuşma dışı ses tanıma: Sesleri destekleyen modeller, konuşma dışı sesleri tanırken hata yapabilir.
  • Yüksek hızlı hareket: Modeller, sabit saniyede 1 kare (fps) örnekleme hızı nedeniyle videodaki yüksek hızlı hareketi algılarken hata yapabilir.
  • Transkript noktalama işaretleri: (Gemini 1.5 Flash kullanılıyorsa) Modeller, noktalama işaretleri içermeyen transkriptler döndürebilir.



Ses: Şartlar ve sınırlamalar

Ses: Şartlar

Bu bölümde, ses için desteklenen MIME türleri ve istek başına sınırlar hakkında bilgi edineceksiniz.

Desteklenen MIME türleri

Gemini çok formatlı modelleri aşağıdaki ses MIME türlerini destekler:

Ses MIME türü Gemini 1.5 Flash Gemini 1.5 Pro
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

İstek başına sınırlar

Bir istem isteğine en fazla 1 ses dosyası ekleyebilirsiniz.

Ses: Sınırlamalar

Gemini çok modlu modelleri, birçok çok modlu kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:

  • Konuşma dışı ses tanıma: Sesleri destekleyen modeller, konuşma dışı sesleri tanırken hata yapabilir.
  • Yalnızca ses için zaman damgaları: Yalnızca ses dosyaları için doğru zaman damgaları oluşturmak istiyorsanız generation_config içinde audio_timestamp parametresini yapılandırmanız gerekir.
  • Transkript noktalama işaretleri: (Gemini 1.5 Flash kullanılıyorsa) Modeller, noktalama işaretleri içermeyen transkriptler döndürebilir.



Dokümanlar (ör. PDF'ler): Şartlar, en iyi uygulamalar ve sınırlamalar

Belgeler: Şartlar

Bu bölümde, dokümanlar (ör. PDF'ler) için istek başına desteklenen MIME türleri ve sınırlar hakkında bilgi edinebilirsiniz.

Desteklenen MIME türleri

Gemini çok formatlı modelleri aşağıdaki doküman MIME türlerini destekler:

Doküman MIME türü Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PDF - application/pdf
Kısa mesaj - text/plain

İstek başına sınırlar

PDF'ler resim olarak değerlendirilir. Bu nedenle, PDF'nin tek bir sayfası tek bir resim olarak değerlendirilir. Bir istemde izin verilen sayfa sayısı, modelin destekleyebileceği resim sayısıyla sınırlıdır:

  • Gemini 1.0 Pro Vision: 16 sayfa
  • Gemini 1.5 Pro ve Gemini 1.5 Flash: 1.000 sayfa

Belgeler: Belirtme

PDF jeton oluşturma

PDF'ler resim olarak değerlendirilir. Bu nedenle, PDF'nin her sayfası resimle aynı şekilde jetonlara ayrılır.

Ayrıca, PDF'lerin maliyeti Gemini resim fiyatlandırmasına tabidir. Örneğin, bir Gemini API çağrısına iki sayfalık bir PDF eklerseniz iki resmin işlenmesi için giriş ücreti ödersiniz.

Düz metin belirtkeleme

Düz metin dokümanları metin olarak jetonlara ayrılır. Örneğin, bir Gemini API çağrısına 100 kelimelik bir düz metin belgesi eklerseniz 100 kelimenin işlenmesi için giriş ücreti ödersiniz.

Dokümanlar: En iyi uygulamalar

PDF'leri kullanırken en iyi sonuçlar için aşağıdaki en iyi uygulamaları ve bilgileri kullanın:

  • İsteminiz tek bir PDF içeriyorsa PDF'yi isteğinizde metin isteminden önce yerleştirin.
  • Uzun bir dokümanınız varsa işleme almak için birden fazla PDF'ye bölmeyi düşünebilirsiniz.
  • Taranmış resimlerdeki metin yerine, metin olarak oluşturulan PDF'leri kullanın. Bu biçim, metnin makine tarafından okunabilir olmasını sağlar. Böylece, modelin tarayıcıdan alınan resim PDF'lerine kıyasla metni düzenlemesi, araması ve değiştirmesi daha kolay olur. Bu uygulama, sözleşmeler gibi metin ağırlıklı dokümanlarla çalışırken en iyi sonuçları sağlar.

Belgeler: Sınırlamalar

Gemini çoklu modelleri birçok çoklu kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:

  • Uzamsal akıl yürütme: Modeller, PDF'lerdeki metinleri veya nesneleri bulma konusunda hassas değildir. Yalnızca öğelerin yaklaşık sayılarını döndürebilirler.
  • Doğruluk: Modeller, PDF dokümanlarında el yazısı metinleri yorumlarken halüsinasyon sorunu yaşayabilir.