Vertex AI Gemini API के साथ काम करने वाली इनपुट फ़ाइलें और ज़रूरी शर्तें

Vertex AI in Firebase SDK टूल का इस्तेमाल करके अपने ऐप्लिकेशन से Vertex AI Gemini API को कॉल करते समय, Gemini मॉडल को मल्टीमोडल इनपुट के आधार पर टेक्स्ट जनरेट करने के लिए प्रॉम्प्ट जनरेट किया जा सकता है. मल्टीमोडल प्रॉम्प्ट में कई मोड (या इनपुट के टाइप) शामिल हो सकते हैं. जैसे, इमेज, PDF, वीडियो, और ऑडियो के साथ टेक्स्ट.

इनपुट के बिना टेक्स्ट वाले हिस्सों (जैसे, मीडिया फ़ाइलें) के लिए, आपको काम करने वाले फ़ाइल टाइप का इस्तेमाल करना होगा. साथ ही, काम करने वाला MIME टाइप तय करना होगा. साथ ही, यह पक्का करना होगा कि आपकी फ़ाइलें और मल्टीमोडल अनुरोध ज़रूरी शर्तों को पूरा करते हों और सबसे सही तरीकों का पालन करते हों.

इस पेज पर, इनके लिए इस्तेमाल किए जा सकने वाले MIME टाइप, सबसे सही तरीके, और सीमाओं के बारे में बताया गया है:

Vertex AI in Firebase SDK टूल के लिए ज़रूरी शर्तें

Vertex AI in Firebase SDK टूल के लिए, अनुरोध का कुल साइज़ ज़्यादा से ज़्यादा 20 एमबी हो सकता है. अगर अनुरोध बहुत बड़ा है, तो आपको एचटीटीपी 413 गड़बड़ी का मैसेज मिलता है.



इमेज: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

इमेज: ज़रूरी शर्तें

इस सेक्शन में, इमेज के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.

इस्तेमाल किए जा सकने वाले MIME टाइप

Gemini के मल्टीमोडल मॉडल, इन इमेज MIME टाइप के साथ काम करते हैं:

इमेज का MIME टाइप Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG - image/png
JPEG - image/jpeg
WebP - image/webp

हर अनुरोध के लिए सीमाएं

किसी इमेज में पिक्सल की संख्या तय नहीं होती. हालांकि, बड़ी इमेज को छोटा करके और पैड करके, 3072 x 3072 पिक्सल के ज़्यादा से ज़्यादा रिज़ॉल्यूशन में फ़िट किया जाता है. ऐसा करते समय, इमेज के मूल आसपेक्ट रेशियो को बनाए रखा जाता है.

प्रॉम्प्ट अनुरोध में, ज़्यादा से ज़्यादा इतनी इमेज फ़ाइलें जोड़ी जा सकती हैं:

  • Gemini 1.0 Pro Vision: 16 इमेज
  • Gemini 1.5 Flash और Gemini 1.5 Pro: 3,000 इमेज

इमेज: टोकनाइज़ेशन

इमेज के लिए टोकन की गिनती इस तरह की जाती है:

  • Gemini 1.0 Pro Vision: हर इमेज के लिए 258 टोकन लगते हैं.
  • Gemini 1.5 Flash और Gemini 1.5 Pro:
    • अगर किसी इमेज के दोनों डाइमेंशन 384 पिक्सल या उससे कम हैं, तो 258 टोकन का इस्तेमाल किया जाता है.
    • अगर किसी इमेज का एक डाइमेंशन 384 पिक्सल से ज़्यादा है, तो इमेज को टाइल में काट दिया जाता है. हर टाइल का साइज़ डिफ़ॉल्ट रूप से, सबसे छोटे डाइमेंशन (चौड़ाई या ऊंचाई) को 1.5 से भाग देने पर मिलता है. ज़रूरत पड़ने पर, हर टाइल में बदलाव किया जाता है, ताकि उसका साइज़ 256 पिक्सल से कम और 768 पिक्सल से ज़्यादा न हो. इसके बाद, हर टाइल का साइज़ 768x768 कर दिया जाता है और इसमें 258 टोकन का इस्तेमाल किया जाता है.

इमेज: सबसे सही तरीके

इमेज इस्तेमाल करते समय, सबसे अच्छे नतीजे पाने के लिए इन सबसे सही तरीकों और जानकारी का इस्तेमाल करें:

  • अगर आपको किसी इमेज में टेक्स्ट का पता लगाना है, तो एक इमेज वाले प्रॉम्प्ट का इस्तेमाल करें. इससे, कई इमेज वाले प्रॉम्प्ट के मुकाबले बेहतर नतीजे मिलेंगे.
  • अगर आपके प्रॉम्प्ट में एक इमेज है, तो अपने अनुरोध में टेक्स्ट प्रॉम्प्ट से पहले इमेज डालें.
  • अगर आपके प्रॉम्प्ट में कई इमेज हैं और आपको इन्हें अपने प्रॉम्प्ट में बाद में रेफ़र करना है या मॉडल को इन्हें अपने जवाब में रेफ़र करना है, तो हर इमेज के पहले इंडेक्स जोड़ें. अपने इंडेक्स के लिए, a b c या image 1 image 2 image 3 का इस्तेमाल करें. यहां, प्रॉम्प्ट में इंडेक्स की गई इमेज इस्तेमाल करने का उदाहरण दिया गया है:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • हाई रिज़ॉल्यूशन वाली इमेज का इस्तेमाल करें. इससे बेहतर नतीजे मिलते हैं.
  • प्रॉम्प्ट में कुछ उदाहरण शामिल करें.
  • प्रॉम्प्ट में इमेज जोड़ने से पहले, उन्हें सही ओरिएंटेशन में घुमाएं.
  • धुंधली इमेज अपलोड न करें.

इमेज: सीमाएं

Gemini के मल्टीमोडल मॉडल की मदद से, कई मॉडल का इस्तेमाल किया जा सकता है. हालाँकि, इन मॉडल की सीमाओं को समझना बहुत ज़रूरी है:

  • कॉन्टेंट मॉडरेशन: मॉडल, सुरक्षा से जुड़ी हमारी नीतियों का उल्लंघन करने वाली इमेज के बारे में जवाब देने से मना करते हैं.
  • स्पेशल रीज़निंग: मॉडल, इमेज में टेक्स्ट या ऑब्जेक्ट की सटीक जगह का पता नहीं लगा पाते. हो सकता है कि वे सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
  • मेडिकल इस्तेमाल: ये मॉडल, मेडिकल इमेज (उदाहरण के लिए, एक्स-रे और सीटी स्कैन) का विश्लेषण करने या मेडिकल सलाह देने के लिए सही नहीं हैं.
  • लोगों की पहचान करना: मॉडल का इस्तेमाल, इमेज में मौजूद उन लोगों की पहचान करने के लिए नहीं किया जाना चाहिए जो मशहूर नहीं हैं.
  • सटीक जानकारी: खराब क्वालिटी, घुमाई गई या बहुत कम रिज़ॉल्यूशन वाली इमेज का विश्लेषण करते समय, मॉडल गलत जानकारी दे सकते हैं या गड़बड़ियां कर सकते हैं. इमेज वाले दस्तावेज़ों में, हाथ से लिखे गए टेक्स्ट का अनुवाद करते समय भी मॉडल गलत नतीजे दे सकते हैं.



वीडियो: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

वीडियो: ज़रूरी शर्तें

इस सेक्शन में, वीडियो के लिए किए जाने वाले हर अनुरोध के लिए, इस्तेमाल किए जा सकने वाले MIME टाइप और उनकी सीमाओं के बारे में जानें.

इस्तेमाल किए जा सकने वाले MIME टाइप

Gemini के मल्टीमोडल मॉडल, वीडियो के इन MIME टाइप के साथ काम करते हैं:

वीडियो MIME टाइप Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
एमपीईजीपीएस - video/mpegps
मील प्रति गैलन (एमपीजी) - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

हर अनुरोध के लिए सीमाएं

प्रॉम्प्ट के अनुरोध में, ज़्यादा से ज़्यादा कितनी वीडियो फ़ाइलें अपलोड की जा सकती हैं, इसकी जानकारी यहां दी गई है:

  • Gemini 1.0 Pro Vision: एक वीडियो फ़ाइल
  • Gemini 1.5 Flash और Gemini 1.5 Pro: 10 वीडियो फ़ाइलें

वीडियो: टोकनाइज़ेशन

वीडियो के लिए टोकन की गिनती करने का तरीका यहां बताया गया है:

  • Gemini के सभी मल्टीमॉडल मॉडल: वीडियो का सैंपल, 1 फ़्रेम प्रति सेकंड (फ़्रेम प्रति सेकंड) के हिसाब से लिया जाता है. हर वीडियो फ़्रेम के लिए 258 टोकन होते हैं.
  • Gemini 1.5 Flash और Gemini 1.5 Pro: ऑडियो ट्रैक को वीडियो फ़्रेम के साथ एन्कोड किया जाता है. ऑडियो ट्रैक को भी एक सेकंड के ट्रंक में बांटा जाता है. हर ट्रंक में 32 टोकन होते हैं. वीडियो फ़्रेम और ऑडियो टोकन को उनके टाइमस्टैंप के साथ इंटरलीव किया जाता है. टाइमस्टैंप सात टोकन के तौर पर दिखाए जाते हैं.

वीडियो: सबसे सही तरीके

वीडियो का इस्तेमाल करते समय, सबसे सही तरीकों और जानकारी का इस्तेमाल करके सबसे बेहतर नतीजे पाएं:

  • अगर आपके प्रॉम्प्ट में एक वीडियो है, तो वीडियो को टेक्स्ट प्रॉम्प्ट से पहले रखें.
  • अगर आपको ऑडियो वाले वीडियो में टाइमस्टैंप का स्थानीय भाषा में अनुवाद चाहिए, तो मॉडल को MM:SS फ़ॉर्मैट में टाइमस्टैंप जनरेट करने के लिए कहें. इस फ़ॉर्मैट में, पहले दो अंक मिनट और आखिरी दो अंक सेकंड दिखाते हैं. टाइमस्टैंप के बारे में पूछने वाले सवालों के लिए, एक ही फ़ॉर्मैट का इस्तेमाल करें.
  • Gemini 1.0 Pro Vision का इस्तेमाल करने पर, इन बातों का ध्यान रखें:

    • एक प्रॉम्प्ट में एक से ज़्यादा वीडियो का इस्तेमाल न करें.
    • मॉडल, वीडियो के सिर्फ़ पहले दो मिनट में मौजूद जानकारी को प्रोसेस करता है.
    • मॉडल, वीडियो को अलग-अलग इमेज फ़्रेम के तौर पर प्रोसेस करता है. इसमें ऑडियो शामिल नहीं होता. अगर आपको लगता है कि मॉडल ने वीडियो में कुछ कॉन्टेंट रिकॉर्ड नहीं किया है, तो वीडियो को छोटा करें, ताकि मॉडल वीडियो के ज़्यादा से ज़्यादा हिस्से को रिकॉर्ड कर सके.
    • यह मॉडल, ऑडियो से जुड़ी किसी भी जानकारी या टाइमस्टैंप मेटाडेटा को प्रोसेस नहीं करता. इस वजह से, हो सकता है कि मॉडल उन इस्तेमाल के उदाहरणों में अच्छा परफ़ॉर्म न करे जिनमें ऑडियो इनपुट की ज़रूरत होती है. जैसे, ऑडियो को कैप्शन में बदलना या समय से जुड़ी जानकारी, जैसे कि स्पीड या लय.

वीडियो: सीमाएं

Gemini के मल्टीमोडल मॉडल, मल्टीमोडल इस्तेमाल के कई मामलों में बेहतरीन होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • कॉन्टेंट मॉडरेशन: मॉडल, सुरक्षा से जुड़ी हमारी नीतियों का उल्लंघन करने वाले वीडियो के बारे में जवाब देने से मना करते हैं.
  • बोली के अलावा अन्य आवाज़ों को पहचानने की सुविधा: ऑडियो की सुविधा वाले मॉडल, बोली के अलावा अन्य आवाज़ों को पहचानने में गड़बड़ियां कर सकते हैं.
  • तेज़ रफ़्तार से होने वाली गति: एक फ़्रेम प्रति सेकंड (एफ़पीएस) के सैंपलिंग रेट की वजह से, मॉडल वीडियो में तेज़ रफ़्तार से होने वाली गति को समझने में गड़बड़ियां कर सकते हैं.
  • ट्रांसक्रिप्ट में विराम चिह्न: (Gemini 1.5 Flash का इस्तेमाल करने पर) मॉडल, ऐसे ट्रांसक्रिप्शन भी दिखा सकते हैं जिनमें विराम चिह्न का इस्तेमाल नहीं किया गया हो.



ऑडियो: ज़रूरी शर्तें और सीमाएं

ऑडियो: ज़रूरी शर्तें

इस सेक्शन में, ऑडियो के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.

इस्तेमाल किए जा सकने वाले MIME टाइप

Gemini के मल्टीमोडल मॉडल, ऑडियो के इन MIME टाइप के साथ काम करते हैं:

ऑडियो का MIME टाइप Gemini 1.5 Flash Gemini 1.5 Pro
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
एमपीए - audio/m4a
MPEG - audio/mpeg
एमपीजीए - audio/mpga
MP4 - audio/mp4
ओपीयूएस - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

हर अनुरोध के लिए सीमाएं

प्रॉम्प्ट के अनुरोध में, ज़्यादा से ज़्यादा एक ऑडियो फ़ाइल शामिल की जा सकती है.

ऑडियो: सीमाएं

Gemini के मल्टीमोडल मॉडल की मदद से, कई मॉडल का इस्तेमाल किया जा सकता है. हालाँकि, इन मॉडल की सीमाओं को समझना बहुत ज़रूरी है:

  • बोली के अलावा अन्य आवाज़ों को पहचानने की सुविधा: ऑडियो की सुविधा वाले मॉडल, बोली के अलावा अन्य आवाज़ों को पहचानने में गड़बड़ियां कर सकते हैं.
  • सिर्फ़ ऑडियो वाले टाइमस्टैंप: सिर्फ़-ऑडियो वाली फ़ाइलों के टाइमस्टैंप सही तरीके से जनरेट करने के लिए, आपको generation_config में audio_timestamp पैरामीटर कॉन्फ़िगर करना होगा.
  • ट्रांसक्रिप्शन में विराम चिह्न: (अगर Gemini 1.5 Flash का इस्तेमाल किया जा रहा है) हो सकता है कि मॉडल, ऐसे ट्रांसक्रिप्शन दिखाएं जिनमें विराम चिह्न शामिल न हों.



दस्तावेज़ (जैसे कि PDF): ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

दस्तावेज़: ज़रूरी शर्तें

इस सेक्शन में, दस्तावेज़ों (जैसे PDF) के लिए काम करने वाले MIME टाइप और हर अनुरोध की सीमाओं के बारे में जानें.

इस्तेमाल किए जा सकने वाले MIME टाइप

Gemini के मल्टीमोडल मॉडल, दस्तावेज़ के इन MIME टाइप के साथ काम करते हैं:

दस्तावेज़ का MIME टाइप Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro विज़न
PDF - application/pdf
टेक्स्ट - text/plain

हर अनुरोध के लिए सीमाएं

PDF फ़ाइलों को इमेज के तौर पर माना जाता है. इसलिए, PDF के एक पेज को एक इमेज माना जाता है. प्रॉम्प्ट में पेजों की संख्या, उन इमेज की संख्या तक सीमित होती है जिनका इस्तेमाल मॉडल कर सकता है:

  • Gemini 1.0 Pro Vision: 16 पेज
  • Gemini 1.5 Pro और Gemini 1.5 Flash: 1,000 पेज

दस्तावेज़: टोकनाइज़ेशन

PDF टोकनाइज़ेशन

PDF को इमेज के तौर पर माना जाता है. इसलिए, PDF के हर पेज को उसी तरह टोकन में बदला जाता है जिस तरह किसी इमेज को बदला जाता है.

साथ ही, PDF फ़ाइलों की कीमत, Gemini की इमेज की कीमत के हिसाब से तय होती है. उदाहरण के लिए, अगर आपने Gemini API कॉल में दो पेज का PDF शामिल किया है, तो आपको दो इमेज प्रोसेस करने के लिए इनपुट फ़ीस देनी होगी.

सामान्य टेक्स्ट को टोकन में बदलना

सादे टेक्स्ट वाले दस्तावेज़ों को टेक्स्ट के तौर पर टोकन के तौर पर दिखाया जाता है. उदाहरण के लिए, अगर आपने Gemini API कॉल में 100 शब्दों का प्लैन टेक्स्ट वाला दस्तावेज़ शामिल किया है, तो आपको 100 शब्दों को प्रोसेस करने के लिए इनपुट शुल्क देना होगा.

दस्तावेज़: सबसे सही तरीके

PDF का इस्तेमाल करते समय, सबसे अच्छे नतीजे पाने के लिए इन सबसे सही तरीकों और जानकारी का इस्तेमाल करें:

  • अगर आपके प्रॉम्प्ट में एक PDF है, तो अपने अनुरोध में टेक्स्ट प्रॉम्प्ट से पहले PDF को रखें.
  • अगर आपके पास कोई लंबा दस्तावेज़ है, तो उसे प्रोसेस करने के लिए, कई PDF में बांटें.
  • स्कैन की गई इमेज में मौजूद टेक्स्ट के बजाय, टेक्स्ट के तौर पर रेंडर किए गए टेक्स्ट से बनाए गए PDF का इस्तेमाल करें. यह फ़ॉर्मैट पक्का करता है कि टेक्स्ट, मशीन से पढ़ा जा सके. इससे मॉडल को स्कैन की गई इमेज की PDF फ़ाइलों के मुकाबले, उनमें बदलाव करने, उन्हें खोजने, और उनमें बदलाव करने में आसानी होती है. कॉन्ट्रैक्ट जैसे ज़्यादा टेक्स्ट वाले दस्तावेज़ों पर काम करते समय, यह तरीका सबसे बेहतर नतीजे देता है.

दस्तावेज़: सीमाएं

Gemini के मल्टीमोडल मॉडल, मल्टीमोडल इस्तेमाल के कई मामलों में बेहतरीन होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • स्पेशल रीज़निंग: मॉडल, PDF में टेक्स्ट या ऑब्जेक्ट को सटीक तरीके से नहीं खोज पाते. हो सकता है कि वे सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
  • सटीक जानकारी: PDF दस्तावेज़ों में, हाथ से लिखे गए टेक्स्ट को समझने के दौरान, मॉडल गलत जानकारी दे सकते हैं.