इनपुट फ़ाइलों के लिए इस्तेमाल किए जा सकने वाले फ़ॉर्मैट और ज़रूरी शर्तें

अपने ऐप्लिकेशन से Gemini API को कॉल करने के लिए, Firebase AI Logic SDK का इस्तेमाल किया जा सकता है. इसके लिए, Gemini मॉडल को मल्टीमॉडल इनपुट के आधार पर टेक्स्ट जनरेट करने के लिए कहा जा सकता है. जैसे, इमेज, वीडियो, ऑडियो, और दस्तावेज़ (जैसे कि PDF).

इसके लिए, आपको स्वीकार किए जाने वाले फ़ाइल टाइप इस्तेमाल करने होंगे. साथ ही, स्वीकार किए जाने वाले एमआईएमई टाइप की जानकारी देनी होगी. इसके अलावा, यह भी पक्का करना होगा कि आपकी फ़ाइलें और मल्टीमॉडल अनुरोध, ज़रूरी शर्तों के मुताबिक हों और सबसे सही तरीकों के हिसाब से हों.

यह पेज, GenerativeModel का इस्तेमाल करने के बारे में है. इसमें इन विषयों के बारे में बताया गया है:

मल्टीमॉडल अनुरोधों में फ़ाइलें शामिल करने के विकल्प

इस पेज पर, Gemini API उपलब्ध कराने वाली कंपनी के हिसाब से कॉन्टेंट देखने के लिए, उसे चुनें

हर मल्टीमॉडल अनुरोध में, आपको हमेशा यह जानकारी देनी होगी:

अनुरोध में शामिल की जा सकने वाली फ़ाइलों का साइज़ और संख्या, इनपुट फ़ाइल के टाइप, फ़ाइल शामिल करने के तरीके, और इस्तेमाल किए गए मॉडल पर निर्भर करती है. ज़्यादा जानकारी के लिए, इस पेज पर हर इनपुट फ़ाइल टाइप का सेक्शन देखें.

पहला विकल्प: फ़ाइल को इनलाइन डेटा के तौर पर शामिल करना

इनलाइन डेटा के तौर पर शामिल की गई फ़ाइलों के बारे में यहां दी गई जानकारी का ध्यान रखें:

  • सिर्फ़ छोटी फ़ाइलों को इनलाइन डेटा के तौर पर भेजा जा सकता है, क्योंकि अनुरोध के कुल साइज़ की सीमा 20 एमबी है.

  • ट्रांसफ़र के दौरान, फ़ाइल को base64 में एन्कोड किया जाता है. इससे फ़ाइल का साइज़ बढ़ जाता है.

इनलाइन डेटा के तौर पर फ़ाइल शामिल करने का तरीका जानने के लिए, टेक्स्ट और फ़ाइल (मल्टीमॉडल) इनपुट से टेक्स्ट जनरेट करना लेख पढ़ें. ध्यान दें कि Android और Apple प्लैटफ़ॉर्म के लिए SDK टूल, अनुरोधों में शामिल इनलाइन इमेज को बिना एमआईएमई टाइप की जानकारी दिए प्रोसेस कर सकते हैं. ज़्यादा जानें.

दूसरा विकल्प: यूआरएल का इस्तेमाल करके फ़ाइल शामिल करना

Gemini Developer API का इस्तेमाल करते समय, इन टाइप के यूआरएल इस्तेमाल किए जा सकते हैं:

  • YouTube वीडियो का यूआरएल: YouTube वीडियो सार्वजनिक या अनलिस्टेड होना चाहिए.

    हर अनुरोध के लिए, YouTube वीडियो का एक यूआरएल दिया जा सकता है.



इमेज: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

इमेज: ज़रूरी शर्तें

इस सेक्शन में, इमेज के लिए स्वीकार किए जाने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.

स्वीकार किए जाने वाले MIME टाइप

Gemini के मल्टीमॉडल मॉडल, इमेज के इन MIME टाइप के साथ काम करते हैं:

  • PNG - image/png
  • JPEG - image/jpeg
  • WebP - image/webp

हर अनुरोध के लिए तय की गई सीमाएं

किसी इमेज में पिक्सल की संख्या के लिए कोई खास सीमा नहीं है. हालांकि, बड़ी इमेज को स्केल डाउन किया जाता है और पैड किया जाता है, ताकि वे 3072 x 3072 के ज़्यादा से ज़्यादा रिज़ॉल्यूशन में फ़िट हो सकें. साथ ही, उनका ओरिजनल आसपेक्ट रेशियो भी बना रहे.

हर अनुरोध के लिए ज़्यादा से ज़्यादा फ़ाइलें: 3,000 इमेज फ़ाइलें

इमेज: टोकनाइज़ेशन

इमेज के लिए टोकन कैसे कैलकुलेट किए जाते हैं, यह यहां बताया गया है:

  • अगर किसी इमेज के दोनों डाइमेंशन 384 पिक्सल या उससे कम हैं, तो 258 टोकन इस्तेमाल किए जाते हैं.
  • अगर किसी इमेज का एक डाइमेंशन 384 पिक्सल से ज़्यादा है, तो इमेज को टाइल में क्रॉप किया जाता है. हर टाइल का डिफ़ॉल्ट साइज़, सबसे छोटे डाइमेंशन (चौड़ाई या ऊंचाई) को 1.5 से भाग देने पर मिलने वाली वैल्यू होती है. ज़रूरत पड़ने पर, हर टाइल को अडजस्ट किया जाता है ताकि वह 256 पिक्सल से छोटी और 768 पिक्सल से बड़ी न हो. इसके बाद, हर टाइल का साइज़ बदलकर 768x768 कर दिया जाता है और इसके लिए 258 टोकन इस्तेमाल किए जाते हैं.

इमेज: सबसे सही तरीके

इमेज का इस्तेमाल करते समय, सबसे अच्छे नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:

  • अगर आपको किसी इमेज में मौजूद टेक्स्ट का पता लगाना है, तो एक इमेज वाले प्रॉम्प्ट का इस्तेमाल करें. इससे, एक से ज़्यादा इमेज वाले प्रॉम्प्ट के मुकाबले बेहतर नतीजे मिलते हैं.
  • अगर आपके प्रॉम्प्ट में एक इमेज है, तो अपने अनुरोध में टेक्स्ट प्रॉम्प्ट से पहले इमेज शामिल करें.
  • अगर आपके प्रॉम्प्ट में एक से ज़्यादा इमेज हैं और आपको बाद में अपने प्रॉम्प्ट में उनका रेफ़रंस देना है या मॉडल को मॉडल के जवाब में उनका रेफ़रंस देना है, तो हर इमेज से पहले इंडेक्स देना मददगार साबित हो सकता है. इंडेक्स के लिए, a b c या image 1 image 2 image 3 का इस्तेमाल करें. यहां, किसी प्रॉम्प्ट में इंडेक्स वाली इमेज का इस्तेमाल करने का एक उदाहरण दिया गया है:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • ज़्यादा रिज़ॉल्यूशन वाली इमेज का इस्तेमाल करें. इनसे बेहतर नतीजे मिलते हैं.
  • प्रॉम्प्ट में कुछ उदाहरण शामिल करें.
  • इमेज को प्रॉम्प्ट में जोड़ने से पहले, उन्हें सही ओरिएंटेशन में घुमाएं.
  • धुंधली इमेज का इस्तेमाल न करें.

इमेज: सीमाएं

Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल इस्तेमाल के कई मामलों में कारगर हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • कॉन्टेंट मॉडरेशन: मॉडल, हमारी सुरक्षा से जुड़ी नीतियों का उल्लंघन करने वाली इमेज के बारे में जवाब नहीं देते.
  • स्पेशल रीज़निंग: मॉडल, इमेज में मौजूद टेक्स्ट या ऑब्जेक्ट की सटीक पहचान नहीं कर पाते. वे ऑब्जेक्ट की अनुमानित संख्या ही दिखा सकते हैं.
  • मेडिकल इस्तेमाल: मॉडल, मेडिकल इमेज (जैसे, एक्स-रे और सीटी स्कैन) की व्याख्या करने या मेडिकल सलाह देने के लिए सही नहीं हैं.
  • लोगों की पहचान: मॉडल का इस्तेमाल, इमेज में मौजूद उन लोगों की पहचान करने के लिए नहीं किया जाना चाहिए जो मशहूर हस्तियां नहीं हैं.
  • सटीकता: कम क्वालिटी, घुमाई गई या बहुत कम रिज़ॉल्यूशन वाली इमेज की व्याख्या करते समय, मॉडल गलत जानकारी दे सकते हैं या गलतियां कर सकते हैं. इमेज वाले दस्तावेज़ों में, हाथ से लिखे टेक्स्ट की व्याख्या करते समय भी मॉडल गलत जानकारी दे सकते हैं.



वीडियो: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

वीडियो: ज़रूरी शर्तें

इस सेक्शन में, वीडियो के लिए स्वीकार किए जाने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.

स्वीकार किए जाने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, वीडियो के इन MIME टाइप के साथ काम करते हैं:

  • FLV - video/x-flv
  • MOV - video/quicktime
  • MPEG - video/mpeg
  • MPEGPS - video/mpegps
  • MPG - video/mpg
  • MP4 - video/mp4
  • WEBM - video/webm
  • WMV - video/wmv
  • 3GPP - video/3gpp

हर अनुरोध के लिए तय की गई सीमाएं

हर अनुरोध के लिए ज़्यादा से ज़्यादा फ़ाइलें: 10 वीडियो फ़ाइलें

वीडियो: टोकनाइज़ेशन

वीडियो के लिए टोकन कैसे कैलकुलेट किए जाते हैं, यह यहां बताया गया है:

  • ऑडियो ट्रैक को वीडियो फ़्रेम के साथ एन्कोड किया जाता है. ऑडियो ट्रैक को एक-एक सेकंड के हिस्सों में भी बांटा जाता है. हर हिस्से के लिए 32 टोकन इस्तेमाल किए जाते हैं. वीडियो फ़्रेम और ऑडियो टोकन को उनके टाइमस्टैंप के साथ इंटरलीव किया जाता है. टाइमस्टैंप को पांच टोकन के तौर पर दिखाया जाता है.
  • ऐसे वीडियो के लिए जिन्हें हर सेकंड एक या उससे कम फ़्रेम (एफ़पीएस) पर सैंपल किया जाता है, वीडियो के पहले घंटे के टाइमस्टैंप को हर वीडियो फ़्रेम के लिए पांच टोकन के तौर पर दिखाया जाता है. बाकी टाइमस्टैंप को हर वीडियो फ़्रेम के लिए सात टोकन के तौर पर दिखाया जाता है.
  • ऐसे वीडियो के लिए जिन्हें हर सेकंड एक से ज़्यादा फ़्रेम (एफ़पीएस) पर सैंपल किया जाता है, वीडियो के पहले घंटे के टाइमस्टैंप को हर वीडियो फ़्रेम के लिए नौ टोकन के तौर पर दिखाया जाता है. बाकी टाइमस्टैंप को हर वीडियो फ़्रेम के लिए 11 टोकन के तौर पर दिखाया जाता है.

वीडियो: सबसे सही तरीके

वीडियो का इस्तेमाल करते समय, सबसे अच्छे नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:

  • अगर आपके प्रॉम्प्ट में एक वीडियो है, तो टेक्स्ट प्रॉम्प्ट से पहले वीडियो शामिल करें.
  • अगर आपको ऑडियो वाले वीडियो में टाइमस्टैंप का स्थानीयकरण करना है, तो मॉडल से ऐसे टाइमस्टैंप जनरेट करने के लिए कहें जो "टाइमस्टैंप का फ़ॉर्मैट" में बताए गए फ़ॉर्मैट के मुताबिक हों.

वीडियो: सीमाएं

Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल इस्तेमाल के कई मामलों में कारगर हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • कॉन्टेंट मॉडरेशन: मॉडल, हमारी सुरक्षा से जुड़ी नीतियों का उल्लंघन करने वाले वीडियो के बारे में जवाब नहीं देते.
  • बिना आवाज़ वाली ध्वनि की पहचान: ऑडियो की सुविधा देने वाले मॉडल, आवाज़ के अलावा अन्य ध्वनियों की पहचान करने में गलतियां कर सकते हैं.



ऑडियो: ज़रूरी शर्तें और सीमाएं

ऑडियो: ज़रूरी शर्तें

इस सेक्शन में, ऑडियो के लिए स्वीकार किए जाने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.

स्वीकार किए जाने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, ऑडियो के इन MIME टाइप के साथ काम करते हैं:

  • AAC - audio/aac
  • FLAC - audio/flac
  • MP3 - audio/mp3
  • MPA - audio/m4a
  • MPEG - audio/mpeg
  • MPGA - audio/mpga
  • MP4 - audio/mp4
  • OPUS - audio/opus
  • PCM - audio/pcm
  • WAV - audio/wav
  • WEBM - audio/webm

हर अनुरोध के लिए तय की गई सीमाएं

हर अनुरोध के लिए ज़्यादा से ज़्यादा फ़ाइलें: एक ऑडियो फ़ाइल

ऑडियो: सीमाएं

Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल इस्तेमाल के कई मामलों में कारगर हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • बिना आवाज़ वाली ध्वनि की पहचान: ऑडियो की सुविधा देने वाले मॉडल, आवाज़ के अलावा अन्य ध्वनियों की पहचान करने में गलतियां कर सकते हैं.
  • सिर्फ़ ऑडियो के लिए टाइमस्टैंप: सिर्फ़ ऑडियो वाली फ़ाइलों के लिए सटीक टाइमस्टैंप जनरेट करने के लिए, आपको audio_timestamp पैरामीटर को generation_config में कॉन्फ़िगर करना होगा.



दस्तावेज़ (जैसे कि PDF): ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

दस्तावेज़: ज़रूरी शर्तें

इस सेक्शन में, दस्तावेज़ों (जैसे कि PDF) के लिए स्वीकार किए जाने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.

स्वीकार किए जाने वाले MIME टाइप

Gemini के मल्टीमॉडल मॉडल, दस्तावेज़ों के इन MIME टाइप के साथ काम करते हैं:

  • PDF - application/pdf
  • टेक्स्ट - text/plain

हर अनुरोध के लिए तय की गई सीमाएं

PDF को इमेज के तौर पर प्रोसेस किया जाता है. इसलिए, PDF का एक पेज एक इमेज के तौर पर प्रोसेस किया जाता है. किसी प्रॉम्प्ट में शामिल किए जा सकने वाले पेजों की संख्या, इमेज की संख्या तक सीमित होती है, जिसे Gemini मल्टीमॉडल मॉडल स्वीकार कर सकते हैं.

  • हर अनुरोध के लिए ज़्यादा से ज़्यादा फ़ाइलें: 3,000 फ़ाइलें
  • हर फ़ाइल के लिए ज़्यादा से ज़्यादा पेज: हर फ़ाइल के लिए 1,000 पेज
  • हर फ़ाइल के लिए ज़्यादा से ज़्यादा साइज़: हर फ़ाइल के लिए 50 एमबी

दस्तावेज़: टोकनाइज़ेशन

PDF का टोकनाइज़ेशन

PDF को इमेज के तौर पर प्रोसेस किया जाता है. इसलिए, PDF के हर पेज को इमेज की तरह ही टोकनाइज़ किया जाता है.

इसके अलावा, PDF के लिए लगने वाली लागत, Gemini इमेज की कीमत के हिसाब से होती है. उदाहरण के लिए, अगर Gemini API कॉल में दो पेज वाली PDF शामिल की जाती है, तो आपको दो इमेज को प्रोसेस करने की इनपुट फ़ीस चुकानी होगी.

दस्तावेज़: सबसे सही तरीके

PDF का इस्तेमाल करते समय, सबसे अच्छे नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:

  • अगर आपके प्रॉम्प्ट में एक PDF है, तो अपने अनुरोध में टेक्स्ट प्रॉम्प्ट से पहले PDF शामिल करें.
  • अगर आपके पास कोई बड़ा दस्तावेज़ है, तो उसे प्रोसेस करने के लिए, कई PDF में बांटने पर विचार करें.
  • स्कैन की गई इमेज में मौजूद टेक्स्ट के बजाय, टेक्स्ट के तौर पर रेंडर किए गए टेक्स्ट से बनाई गई PDF का इस्तेमाल करें. इस फ़ॉर्मैट से यह पक्का होता है कि टेक्स्ट को मशीन से पढ़ा जा सकता है. इसलिए, स्कैन की गई इमेज वाली PDF के मुकाबले, मॉडल के लिए टेक्स्ट को एडिट करना, खोजना, और उसमें बदलाव करना आसान होता है. कॉन्ट्रैक्ट जैसे टेक्स्ट वाले दस्तावेज़ों के साथ काम करते समय, इस तरीके से सबसे अच्छे नतीजे मिलते हैं.

दस्तावेज़: सीमाएं

Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल इस्तेमाल के कई मामलों में कारगर हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • स्पेशल रीज़निंग: मॉडल, PDF में मौजूद टेक्स्ट या ऑब्जेक्ट की सटीक पहचान नहीं कर पाते. वे ऑब्जेक्ट की अनुमानित संख्या ही दिखा सकते हैं.
  • सटीकता: PDF दस्तावेज़ों में, हाथ से लिखे टेक्स्ट की व्याख्या करते समय मॉडल गलत जानकारी दे सकते हैं.