इनपुट फ़ाइलों के लिए इस्तेमाल किए जा सकने वाले फ़ॉर्मैट और ज़रूरी शर्तें

Firebase AI Logic SDK का इस्तेमाल करके, अपने ऐप्लिकेशन से Gemini API को कॉल करते समय, Gemini मॉडल को टेक्स्ट जनरेट करने के लिए कहा जा सकता है. इसके लिए, टेक्स्ट, इमेज, वीडियो, ऑडियो, और दस्तावेज़ (जैसे, PDF) जैसे मल्टीमॉडल इनपुट का इस्तेमाल किया जा सकता है.

आपको ऐसे फ़ाइल टाइप इस्तेमाल करने होंगे जिन पर यह सुविधा काम करती है. साथ ही, आपको ऐसे MIME टाइप की जानकारी देनी होगी जिन पर यह सुविधा काम करती है. इसके अलावा, यह भी पक्का करना होगा कि आपकी फ़ाइलें और मल्टीमॉडल अनुरोध, ज़रूरी शर्तों को पूरा करते हों और सबसे सही तरीकों का पालन करते हों.

यह पेज, GenerativeModel का इस्तेमाल करने के बारे में है. इसमें इनके बारे में बताया गया है:

मल्टीमॉडल अनुरोधों में फ़ाइलें उपलब्ध कराने के विकल्प

इस पेज पर, Gemini API की सुविधा देने वाली कंपनी के हिसाब से कॉन्टेंट देखने के लिए, कंपनी चुनें

मल्टीमॉडल वाले हर अनुरोध में, आपको हमेशा यह जानकारी देनी होगी:

अनुरोध में दी जा सकने वाली फ़ाइलों का साइज़ और संख्या, इन बातों पर निर्भर करती है: इनपुट फ़ाइल का टाइप, फ़ाइल देने का तरीका, और इस्तेमाल किया गया मॉडल. ज़्यादा जानकारी के लिए, इस पेज पर हर इनपुट फ़ाइल टाइप का सेक्शन देखें.

पहला विकल्प: फ़ाइल को इनलाइन डेटा के तौर पर उपलब्ध कराएं

इनलाइन डेटा के तौर पर दी गई फ़ाइलों के बारे में यहां दी गई जानकारी ध्यान में रखें:

  • सिर्फ़ छोटी फ़ाइलों को इनलाइन डेटा के तौर पर भेजा जा सकता है, क्योंकि अनुरोध के कुल साइज़ की सीमा 20 एमबी है.

  • ट्रांज़िट के दौरान फ़ाइल को base64 में कोड किया जाता है. इससे फ़ाइल का साइज़ बढ़ जाता है.

किसी फ़ाइल को इनलाइन डेटा के तौर पर शामिल करने का तरीका दिखाने वाले उदाहरण के लिए, टेक्स्ट और फ़ाइल (मल्टीमॉडल) इनपुट से टेक्स्ट जनरेट करना लेख पढ़ें. ध्यान दें कि Android और Apple प्लैटफ़ॉर्म के लिए उपलब्ध SDK टूल, MIME टाइप तय किए बिना ही अनुरोधों में इनलाइन इमेज को हैंडल कर सकते हैं. ज़्यादा जानें.

दूसरा विकल्प: यूआरएल का इस्तेमाल करके फ़ाइल सबमिट करना

Gemini Developer API का इस्तेमाल करते समय, इन तरह के यूआरएल स्वीकार किए जाते हैं:



इमेज: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

इमेज: ज़रूरी शर्तें

इस सेक्शन में, इमेज के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.

साथ काम करने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, इमेज के इन एमआईएमई टाइप के साथ काम करते हैं:

  • PNG - image/png
  • JPEG - image/jpeg
  • WebP - image/webp

हर अनुरोध के लिए सीमाएं

किसी इमेज में पिक्सल की संख्या तय नहीं होती. हालांकि, बड़ी इमेज को छोटा किया जाता है और उनके चारों ओर पैडिंग जोड़ी जाती है, ताकि वे 3072 x 3072 के ज़्यादा से ज़्यादा रिज़ॉल्यूशन में फ़िट हो सकें. ऐसा करते समय, उनके ओरिजनल आसपेक्ट रेशियो (लंबाई-चौड़ाई का अनुपात) को बनाए रखा जाता है.

हर अनुरोध में ज़्यादा से ज़्यादा फ़ाइलें: 3,000 इमेज फ़ाइलें

इमेज: टोकनाइज़ेशन

इमेज के लिए टोकन की गिनती इस तरह की जाती है:

  • अगर किसी इमेज के दोनों डाइमेंशन 384 पिक्सल से कम या उसके बराबर हैं, तो 258 टोकन इस्तेमाल किए जाते हैं.
  • अगर किसी इमेज का एक डाइमेंशन 384 पिक्सल से ज़्यादा है, तो इमेज को टाइल में काट दिया जाता है. हर टाइल का डिफ़ॉल्ट साइज़, सबसे छोटे डाइमेंशन (चौड़ाई या ऊंचाई) को 1.5 से भाग देने पर मिलता है. अगर ज़रूरी हो, तो हर टाइल को इस तरह से अडजस्ट किया जाता है कि वह 256 पिक्सल से छोटी और 768 पिक्सल से बड़ी न हो. इसके बाद, हर टाइल का साइज़ बदलकर 768x768 कर दिया जाता है और इसमें 258 टोकन का इस्तेमाल किया जाता है.

इमेज: सबसे सही तरीके

इमेज का इस्तेमाल करते समय, सबसे अच्छे नतीजे पाने के लिए यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:

  • अगर आपको किसी इमेज में मौजूद टेक्स्ट का पता लगाना है, तो एक इमेज वाले प्रॉम्प्ट का इस्तेमाल करें. इससे आपको एक से ज़्यादा इमेज वाले प्रॉम्प्ट की तुलना में बेहतर नतीजे मिलेंगे.
  • अगर आपके प्रॉम्प्ट में सिर्फ़ एक इमेज है, तो अनुरोध में टेक्स्ट प्रॉम्प्ट से पहले इमेज डालें.
  • अगर आपके प्रॉम्प्ट में कई इमेज शामिल हैं और आपको बाद में अपने प्रॉम्प्ट में उनका रेफ़रंस देना है या मॉडल को अपने जवाब में उनका रेफ़रंस देना है, तो हर इमेज से पहले उसका इंडेक्स देने से मदद मिल सकती है. अपने इंडेक्स के लिए, a b c या image 1 image 2 image 3 का इस्तेमाल करें. यहां प्रॉम्प्ट में इंडेक्स की गई इमेज का इस्तेमाल करने का एक उदाहरण दिया गया है:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • ज़्यादा रिज़ॉल्यूशन वाली इमेज इस्तेमाल करें. इनसे बेहतर नतीजे मिलते हैं.
  • प्रॉम्प्ट में कुछ उदाहरण शामिल करें.
  • इमेज को प्रॉम्प्ट में जोड़ने से पहले, उन्हें सही ओरिएंटेशन में घुमाएं.
  • धुंधली इमेज का इस्तेमाल न करें.

इमेज: सीमाएं

Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल के कई इस्तेमाल के मामलों में असरदार होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • कॉन्टेंट की निगरानी: मॉडल, सुरक्षा से जुड़ी हमारी नीतियों का उल्लंघन करने वाली इमेज के जवाब नहीं देते हैं.
  • स्पेशल रीज़निंग: मॉडल, इमेज में मौजूद टेक्स्ट या ऑब्जेक्ट का सटीक पता नहीं लगा पाते हैं. ऐसा हो सकता है कि वे सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
  • चिकित्सा के क्षेत्र में इस्तेमाल: ये मॉडल, मेडिकल इमेज (जैसे, एक्स-रे और सीटी स्कैन) को समझने या चिकित्सा से जुड़ी सलाह देने के लिए सही नहीं हैं.
  • लोगों की पहचान करना: इन मॉडल का इस्तेमाल, इमेज में मौजूद ऐसे लोगों की पहचान करने के लिए नहीं किया जाना चाहिए जो मशहूर हस्तियां नहीं हैं.
  • सटीकता: खराब क्वालिटी, घुमाई गई या बहुत कम रिज़ॉल्यूशन वाली इमेज को समझने में, मॉडल को भ्रम हो सकता है या वे गलतियां कर सकते हैं. ऐसा हो सकता है कि मॉडल, इमेज और दस्तावेज़ों में मौजूद हाथ से लिखे गए टेक्स्ट को समझने में भी गड़बड़ी करें.



वीडियो: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

वीडियो: ज़रूरी शर्तें

इस सेक्शन में, वीडियो के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.

साथ काम करने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, वीडियो के इन MIME टाइप के साथ काम करते हैं:

  • FLV - video/x-flv
  • MOV - video/quicktime
  • MPEG - video/mpeg
  • MPEGPS - video/mpegps
  • एमपीजी - video/mpg
  • MP4 - video/mp4
  • WEBM - video/webm
  • WMV - video/wmv
  • 3GPP - video/3gpp

हर अनुरोध के लिए सीमाएं

हर अनुरोध में ज़्यादा से ज़्यादा 10 वीडियो फ़ाइलें अपलोड की जा सकती हैं

वीडियो: टोकनाइज़ेशन

वीडियो के लिए टोकन का हिसाब इस तरह लगाया जाता है:

  • ऑडियो ट्रैक को वीडियो फ़्रेम के साथ एन्कोड किया गया है. ऑडियो ट्रैक को भी एक सेकंड के ट्रंक में बांटा जाता है. हर ट्रंक में 32 टोकन होते हैं. वीडियो फ़्रेम और ऑडियो टोकन को उनके टाइमस्टैंप के साथ इंटरलीव किया जाता है. टाइमस्टैंप को पांच टोकन के तौर पर दिखाया जाता है.
  • जिन वीडियो को एक फ़्रेम प्रति सेकंड (एफ़पीएस) या उससे कम पर सैंपल किया जाता है उनके लिए, वीडियो के पहले घंटे के टाइमस्टैंप को वीडियो फ़्रेम के हिसाब से पांच टोकन के तौर पर दिखाया जाता है. बाकी टाइमस्टैंप को हर वीडियो फ़्रेम के लिए सात टोकन के तौर पर दिखाया जाता है.
  • अगर वीडियो में एक फ़्रेम प्रति सेकंड (एफ़पीएस) से ज़्यादा फ़्रेम का सैंपल लिया गया है, तो वीडियो के पहले घंटे के टाइमस्टैंप को हर वीडियो फ़्रेम के लिए नौ टोकन के तौर पर दिखाया जाता है. बाकी टाइमस्टैंप को हर वीडियो फ़्रेम के लिए 11 टोकन के तौर पर दिखाया जाता है.

वीडियो: सबसे सही तरीके

वीडियो का इस्तेमाल करते समय, सबसे बेहतर नतीजे पाने के लिए यहां दिए गए सबसे सही तरीके अपनाएं और यह जानकारी दें:

  • अगर आपके प्रॉम्प्ट में सिर्फ़ एक वीडियो है, तो वीडियो को टेक्स्ट प्रॉम्प्ट से पहले रखें.
  • अगर आपको ऑडियो वाले किसी वीडियो में टाइमस्टैंप को स्थानीय भाषा में बदलना है, तो मॉडल से ऐसे टाइमस्टैंप जनरेट करने के लिए कहें जो "टाइमस्टैंप का फ़ॉर्मैट" में बताए गए फ़ॉर्मैट के मुताबिक हों.

वीडियो: सीमाएं

Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल के कई इस्तेमाल के मामलों में असरदार होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • कॉन्टेंट की निगरानी: मॉडल, सुरक्षा से जुड़ी हमारी नीतियों का उल्लंघन करने वाले वीडियो के जवाब नहीं देते.
  • बोली के अलावा अन्य आवाज़ों की पहचान करना: ऑडियो की सुविधा के साथ काम करने वाले मॉडल, बोली के अलावा अन्य आवाज़ों की पहचान करने में गलतियां कर सकते हैं.



ऑडियो: ज़रूरी शर्तें और सीमाएं

ऑडियो: ज़रूरी शर्तें

इस सेक्शन में, ऑडियो के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमा के बारे में जानें.

साथ काम करने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, इन ऑडियो MIME टाइप के साथ काम करते हैं:

  • AAC - audio/aac
  • FLAC - audio/flac
  • MP3 - audio/mp3
  • एमपीए - audio/m4a
  • MPEG - audio/mpeg
  • MPGA - audio/mpga
  • MP4 - audio/mp4
  • OPUS - audio/opus
  • पीसीएम - audio/pcm
  • WAV - audio/wav
  • WEBM - audio/webm

हर अनुरोध के लिए सीमाएं

हर अनुरोध में ज़्यादा से ज़्यादा इतनी फ़ाइलें अपलोड की जा सकती हैं: 1 ऑडियो फ़ाइल

ऑडियो: सीमाएं

Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल के कई इस्तेमाल के मामलों में असरदार होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • बोली के अलावा अन्य आवाज़ों की पहचान करना: ऑडियो की सुविधा के साथ काम करने वाले मॉडल, बोली के अलावा अन्य आवाज़ों की पहचान करने में गलतियां कर सकते हैं.
  • सिर्फ़ ऑडियो वाले वीडियो के लिए टाइमस्टैंप: सिर्फ़ ऑडियो वाले वीडियो के लिए सही टाइमस्टैंप जनरेट करने के लिए, आपको generation_config में audio_timestamp पैरामीटर कॉन्फ़िगर करना होगा.



दस्तावेज़ (जैसे कि PDF): ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

दस्तावेज़: ज़रूरी शर्तें

इस सेक्शन में, दस्तावेज़ों (जैसे कि PDF) के लिए, हर अनुरोध के हिसाब से इस्तेमाल किए जा सकने वाले MIME टाइप और उनकी सीमाओं के बारे में जानें.

साथ काम करने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, इस तरह के दस्तावेज़ MIME टाइप के साथ काम करते हैं:

  • PDF - application/pdf
  • टेक्स्ट - text/plain

हर अनुरोध के लिए सीमाएं

PDF को इमेज माना जाता है. इसलिए, PDF के एक पेज को एक इमेज माना जाता है. किसी प्रॉम्प्ट में पेजों की संख्या, Gemini मल्टीमॉडल मॉडल के साथ काम करने वाली इमेज की संख्या से ज़्यादा नहीं होनी चाहिए.

  • हर अनुरोध में ज़्यादा से ज़्यादा 3,000 फ़ाइलें
  • हर फ़ाइल में ज़्यादा से ज़्यादा पेज: हर फ़ाइल में 1,000 पेज
  • हर फ़ाइल का ज़्यादा से ज़्यादा साइज़: 50 एमबी

दस्तावेज़: टोकनाइज़ेशन

PDF टोकनाइज़ेशन

PDF को इमेज माना जाता है. इसलिए, PDF के हर पेज को इमेज की तरह ही टोकन में बदला जाता है.

साथ ही, पीडीएफ़ की कीमत Gemini इमेज की कीमत के हिसाब से तय होती है. उदाहरण के लिए, अगर आपने Gemini API कॉल में दो पेज वाला PDF शामिल किया है, तो आपको दो इमेज प्रोसेस करने के लिए इनपुट फ़ीस देनी होगी.

दस्तावेज़: सबसे सही तरीके

पीडीएफ़ का इस्तेमाल करते समय, सबसे बेहतर नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीके अपनाएं और जानकारी का इस्तेमाल करें:

  • अगर आपके प्रॉम्प्ट में सिर्फ़ एक PDF है, तो अपने अनुरोध में टेक्स्ट वाले प्रॉम्प्ट से पहले PDF रखें.
  • अगर आपके पास कोई लंबा दस्तावेज़ है, तो उसे प्रोसेस करने के लिए, उसे कई PDF में बांटें.
  • स्कैन की गई इमेज में मौजूद टेक्स्ट का इस्तेमाल करने के बजाय, ऐसे PDF इस्तेमाल करें जिनमें टेक्स्ट को टेक्स्ट के तौर पर रेंडर किया गया हो. इस फ़ॉर्मैट में टेक्स्ट को मशीन आसानी से पढ़ सकती है. इससे मॉडल के लिए, स्कैन की गई इमेज वाले PDF की तुलना में टेक्स्ट को एडिट करना, खोजना, और उसमें बदलाव करना आसान हो जाता है. इस तरीके से, कॉन्ट्रैक्ट जैसे टेक्स्ट वाले दस्तावेज़ों के साथ काम करने पर सबसे अच्छे नतीजे मिलते हैं.

दस्तावेज़: सीमाएं

Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल के कई इस्तेमाल के मामलों में असरदार होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • स्पेशल रीज़निंग: मॉडल, PDF में मौजूद टेक्स्ट या ऑब्जेक्ट का सटीक पता नहीं लगा पाते हैं. ऐसा हो सकता है कि वे सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
  • सटीकता: PDF दस्तावेज़ों में हाथ से लिखे गए टेक्स्ट को समझने के दौरान, मॉडल गलत जवाब दे सकते हैं.