अपने ऐप्लिकेशन से Gemini API को कॉल करने के लिए, Firebase AI Logic SDK का इस्तेमाल किया जा सकता है. इसके लिए, Gemini मॉडल को मल्टीमॉडल इनपुट के आधार पर टेक्स्ट जनरेट करने के लिए कहा जा सकता है. जैसे, इमेज, वीडियो, ऑडियो, और दस्तावेज़ (जैसे कि PDF).
इसके लिए, आपको स्वीकार किए जाने वाले फ़ाइल टाइप इस्तेमाल करने होंगे. साथ ही, स्वीकार किए जाने वाले एमआईएमई टाइप की जानकारी देनी होगी. इसके अलावा, यह भी पक्का करना होगा कि आपकी फ़ाइलें और मल्टीमॉडल अनुरोध, ज़रूरी शर्तों के मुताबिक हों और सबसे सही तरीकों के हिसाब से हों.
यह पेज, GenerativeModel का इस्तेमाल करने के बारे में है. इसमें इन विषयों के बारे में बताया गया है:
इन फ़ाइल इनपुट के लिए, स्वीकार किए जाने वाले MIME टाइप, सबसे सही तरीके, और सीमाओं के बारे में जानकारी:
इमेज | वीडियो | ऑडियो | दस्तावेज़ (जैसे कि PDF).
मल्टीमॉडल अनुरोधों में फ़ाइलें शामिल करने के विकल्प
|
इस पेज पर, Gemini API उपलब्ध कराने वाली कंपनी के हिसाब से कॉन्टेंट देखने के लिए, उसे चुनें |
हर मल्टीमॉडल अनुरोध में, आपको हमेशा यह जानकारी देनी होगी:
फ़ाइल का
mimeType. इस पेज के लागू होने वाले सेक्शन में, हर इनपुट फ़ाइल के लिए स्वीकार किए जाने वाले MIME टाइप देखें.फ़ाइल. फ़ाइल को इनलाइन डेटा के तौर पर शामिल किया जा सकता है या उसके यूआरएल का इस्तेमाल करके शामिल किया जा सकता है.
अनुरोध में शामिल की जा सकने वाली फ़ाइलों का साइज़ और संख्या, इनपुट फ़ाइल के टाइप, फ़ाइल शामिल करने के तरीके, और इस्तेमाल किए गए मॉडल पर निर्भर करती है. ज़्यादा जानकारी के लिए, इस पेज पर हर इनपुट फ़ाइल टाइप का सेक्शन देखें.
पहला विकल्प: फ़ाइल को इनलाइन डेटा के तौर पर शामिल करना
इनलाइन डेटा के तौर पर शामिल की गई फ़ाइलों के बारे में यहां दी गई जानकारी का ध्यान रखें:
सिर्फ़ छोटी फ़ाइलों को इनलाइन डेटा के तौर पर भेजा जा सकता है, क्योंकि अनुरोध के कुल साइज़ की सीमा 20 एमबी है.
ट्रांसफ़र के दौरान, फ़ाइल को base64 में एन्कोड किया जाता है. इससे फ़ाइल का साइज़ बढ़ जाता है.
इनलाइन डेटा के तौर पर फ़ाइल शामिल करने का तरीका जानने के लिए, टेक्स्ट और फ़ाइल (मल्टीमॉडल) इनपुट से टेक्स्ट जनरेट करना लेख पढ़ें. ध्यान दें कि Android और Apple प्लैटफ़ॉर्म के लिए SDK टूल, अनुरोधों में शामिल इनलाइन इमेज को बिना एमआईएमई टाइप की जानकारी दिए प्रोसेस कर सकते हैं. ज़्यादा जानें.
दूसरा विकल्प: यूआरएल का इस्तेमाल करके फ़ाइल शामिल करना
Gemini Developer API का इस्तेमाल करते समय, इन टाइप के यूआरएल इस्तेमाल किए जा सकते हैं:
YouTube वीडियो का यूआरएल: YouTube वीडियो सार्वजनिक या अनलिस्टेड होना चाहिए.
हर अनुरोध के लिए, YouTube वीडियो का एक यूआरएल दिया जा सकता है.
इमेज: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं
इमेज: ज़रूरी शर्तें
इस सेक्शन में, इमेज के लिए स्वीकार किए जाने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.
स्वीकार किए जाने वाले MIME टाइप
Gemini के मल्टीमॉडल मॉडल, इमेज के इन MIME टाइप के साथ काम करते हैं:
- PNG -
image/png - JPEG -
image/jpeg - WebP -
image/webp
हर अनुरोध के लिए तय की गई सीमाएं
किसी इमेज में पिक्सल की संख्या के लिए कोई खास सीमा नहीं है. हालांकि, बड़ी इमेज को स्केल डाउन किया जाता है और पैड किया जाता है, ताकि वे 3072 x 3072 के ज़्यादा से ज़्यादा रिज़ॉल्यूशन में फ़िट हो सकें. साथ ही, उनका ओरिजनल आसपेक्ट रेशियो भी बना रहे.
हर अनुरोध के लिए ज़्यादा से ज़्यादा फ़ाइलें: 3,000 इमेज फ़ाइलें
इमेज: टोकनाइज़ेशन
इमेज के लिए टोकन कैसे कैलकुलेट किए जाते हैं, यह यहां बताया गया है:
- अगर किसी इमेज के दोनों डाइमेंशन 384 पिक्सल या उससे कम हैं, तो 258 टोकन इस्तेमाल किए जाते हैं.
- अगर किसी इमेज का एक डाइमेंशन 384 पिक्सल से ज़्यादा है, तो इमेज को टाइल में क्रॉप किया जाता है. हर टाइल का डिफ़ॉल्ट साइज़, सबसे छोटे डाइमेंशन (चौड़ाई या ऊंचाई) को 1.5 से भाग देने पर मिलने वाली वैल्यू होती है. ज़रूरत पड़ने पर, हर टाइल को अडजस्ट किया जाता है ताकि वह 256 पिक्सल से छोटी और 768 पिक्सल से बड़ी न हो. इसके बाद, हर टाइल का साइज़ बदलकर 768x768 कर दिया जाता है और इसके लिए 258 टोकन इस्तेमाल किए जाते हैं.
इमेज: सबसे सही तरीके
इमेज का इस्तेमाल करते समय, सबसे अच्छे नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:
- अगर आपको किसी इमेज में मौजूद टेक्स्ट का पता लगाना है, तो एक इमेज वाले प्रॉम्प्ट का इस्तेमाल करें. इससे, एक से ज़्यादा इमेज वाले प्रॉम्प्ट के मुकाबले बेहतर नतीजे मिलते हैं.
- अगर आपके प्रॉम्प्ट में एक इमेज है, तो अपने अनुरोध में टेक्स्ट प्रॉम्प्ट से पहले इमेज शामिल करें.
- अगर आपके प्रॉम्प्ट में एक से ज़्यादा इमेज हैं और आपको बाद में अपने प्रॉम्प्ट में उनका रेफ़रंस देना है या मॉडल को मॉडल के जवाब में उनका रेफ़रंस देना है,
तो हर इमेज से पहले इंडेक्स देना मददगार साबित हो सकता है. इंडेक्स के लिए,
याabc का इस्तेमाल करें. यहां, किसी प्रॉम्प्ट में इंडेक्स वाली इमेज का इस्तेमाल करने का एक उदाहरण दिया गया है:image 1image 2image 3image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - ज़्यादा रिज़ॉल्यूशन वाली इमेज का इस्तेमाल करें. इनसे बेहतर नतीजे मिलते हैं.
- प्रॉम्प्ट में कुछ उदाहरण शामिल करें.
- इमेज को प्रॉम्प्ट में जोड़ने से पहले, उन्हें सही ओरिएंटेशन में घुमाएं.
- धुंधली इमेज का इस्तेमाल न करें.
इमेज: सीमाएं
Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल इस्तेमाल के कई मामलों में कारगर हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:
- कॉन्टेंट मॉडरेशन: मॉडल, हमारी सुरक्षा से जुड़ी नीतियों का उल्लंघन करने वाली इमेज के बारे में जवाब नहीं देते.
- स्पेशल रीज़निंग: मॉडल, इमेज में मौजूद टेक्स्ट या ऑब्जेक्ट की सटीक पहचान नहीं कर पाते. वे ऑब्जेक्ट की अनुमानित संख्या ही दिखा सकते हैं.
- मेडिकल इस्तेमाल: मॉडल, मेडिकल इमेज (जैसे, एक्स-रे और सीटी स्कैन) की व्याख्या करने या मेडिकल सलाह देने के लिए सही नहीं हैं.
- लोगों की पहचान: मॉडल का इस्तेमाल, इमेज में मौजूद उन लोगों की पहचान करने के लिए नहीं किया जाना चाहिए जो मशहूर हस्तियां नहीं हैं.
- सटीकता: कम क्वालिटी, घुमाई गई या बहुत कम रिज़ॉल्यूशन वाली इमेज की व्याख्या करते समय, मॉडल गलत जानकारी दे सकते हैं या गलतियां कर सकते हैं. इमेज वाले दस्तावेज़ों में, हाथ से लिखे टेक्स्ट की व्याख्या करते समय भी मॉडल गलत जानकारी दे सकते हैं.
वीडियो: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं
वीडियो: ज़रूरी शर्तें
इस सेक्शन में, वीडियो के लिए स्वीकार किए जाने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.
स्वीकार किए जाने वाले MIME टाइप
Gemini मल्टीमॉडल मॉडल, वीडियो के इन MIME टाइप के साथ काम करते हैं:
- FLV -
video/x-flv - MOV -
video/quicktime - MPEG -
video/mpeg - MPEGPS -
video/mpegps - MPG -
video/mpg - MP4 -
video/mp4 - WEBM -
video/webm - WMV -
video/wmv - 3GPP -
video/3gpp
हर अनुरोध के लिए तय की गई सीमाएं
हर अनुरोध के लिए ज़्यादा से ज़्यादा फ़ाइलें: 10 वीडियो फ़ाइलें
वीडियो: टोकनाइज़ेशन
वीडियो के लिए टोकन कैसे कैलकुलेट किए जाते हैं, यह यहां बताया गया है:
-
ऑडियो ट्रैक को वीडियो फ़्रेम के साथ एन्कोड किया जाता है.
ऑडियो ट्रैक को एक-एक सेकंड के हिस्सों में भी बांटा जाता है. हर हिस्से के लिए 32 टोकन इस्तेमाल किए जाते हैं. वीडियो फ़्रेम और ऑडियो टोकन को उनके टाइमस्टैंप के साथ इंटरलीव किया जाता है. टाइमस्टैंप को पांच टोकन के तौर पर दिखाया जाता है. -
ऐसे वीडियो के लिए जिन्हें हर सेकंड
एक या उससे कम फ़्रेम (एफ़पीएस) पर सैंपल किया जाता है, वीडियो के पहले घंटे के टाइमस्टैंप को हर वीडियो फ़्रेम के लिए पांच टोकन के तौर पर दिखाया जाता है. बाकी टाइमस्टैंप को हर वीडियो फ़्रेम के लिए सात टोकन के तौर पर दिखाया जाता है. -
ऐसे वीडियो के लिए जिन्हें हर सेकंड
एक से ज़्यादा फ़्रेम (एफ़पीएस) पर सैंपल किया जाता है, वीडियो के पहले घंटे के टाइमस्टैंप को हर वीडियो फ़्रेम के लिए नौ टोकन के तौर पर दिखाया जाता है. बाकी टाइमस्टैंप को हर वीडियो फ़्रेम के लिए 11 टोकन के तौर पर दिखाया जाता है.
वीडियो: सबसे सही तरीके
वीडियो का इस्तेमाल करते समय, सबसे अच्छे नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:
- अगर आपके प्रॉम्प्ट में एक वीडियो है, तो टेक्स्ट प्रॉम्प्ट से पहले वीडियो शामिल करें.
- अगर आपको ऑडियो वाले वीडियो में टाइमस्टैंप का स्थानीयकरण करना है, तो मॉडल से ऐसे टाइमस्टैंप जनरेट करने के लिए कहें जो "टाइमस्टैंप का फ़ॉर्मैट" में बताए गए फ़ॉर्मैट के मुताबिक हों.
वीडियो: सीमाएं
Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल इस्तेमाल के कई मामलों में कारगर हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:
- कॉन्टेंट मॉडरेशन: मॉडल, हमारी सुरक्षा से जुड़ी नीतियों का उल्लंघन करने वाले वीडियो के बारे में जवाब नहीं देते.
- बिना आवाज़ वाली ध्वनि की पहचान: ऑडियो की सुविधा देने वाले मॉडल, आवाज़ के अलावा अन्य ध्वनियों की पहचान करने में गलतियां कर सकते हैं.
ऑडियो: ज़रूरी शर्तें और सीमाएं
ऑडियो: ज़रूरी शर्तें
इस सेक्शन में, ऑडियो के लिए स्वीकार किए जाने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.
स्वीकार किए जाने वाले MIME टाइप
Gemini मल्टीमॉडल मॉडल, ऑडियो के इन MIME टाइप के साथ काम करते हैं:
- AAC -
audio/aac - FLAC -
audio/flac - MP3 -
audio/mp3 - MPA -
audio/m4a - MPEG -
audio/mpeg - MPGA -
audio/mpga - MP4 -
audio/mp4 - OPUS -
audio/opus - PCM -
audio/pcm - WAV -
audio/wav - WEBM -
audio/webm
हर अनुरोध के लिए तय की गई सीमाएं
हर अनुरोध के लिए ज़्यादा से ज़्यादा फ़ाइलें: एक ऑडियो फ़ाइल
ऑडियो: सीमाएं
Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल इस्तेमाल के कई मामलों में कारगर हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:
- बिना आवाज़ वाली ध्वनि की पहचान: ऑडियो की सुविधा देने वाले मॉडल, आवाज़ के अलावा अन्य ध्वनियों की पहचान करने में गलतियां कर सकते हैं.
- सिर्फ़ ऑडियो के लिए टाइमस्टैंप: सिर्फ़ ऑडियो वाली फ़ाइलों के लिए सटीक टाइमस्टैंप जनरेट करने के लिए, आपको
audio_timestampपैरामीटर कोgeneration_configमें कॉन्फ़िगर करना होगा.
दस्तावेज़ (जैसे कि PDF): ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं
दस्तावेज़: ज़रूरी शर्तें
इस सेक्शन में, दस्तावेज़ों (जैसे कि PDF) के लिए स्वीकार किए जाने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.
स्वीकार किए जाने वाले MIME टाइप
Gemini के मल्टीमॉडल मॉडल, दस्तावेज़ों के इन MIME टाइप के साथ काम करते हैं:
- PDF -
application/pdf - टेक्स्ट -
text/plain
हर अनुरोध के लिए तय की गई सीमाएं
PDF को इमेज के तौर पर प्रोसेस किया जाता है. इसलिए, PDF का एक पेज एक इमेज के तौर पर प्रोसेस किया जाता है. किसी प्रॉम्प्ट में शामिल किए जा सकने वाले पेजों की संख्या, इमेज की संख्या तक सीमित होती है, जिसे Gemini मल्टीमॉडल मॉडल स्वीकार कर सकते हैं.
- हर अनुरोध के लिए ज़्यादा से ज़्यादा फ़ाइलें: 3,000 फ़ाइलें
- हर फ़ाइल के लिए ज़्यादा से ज़्यादा पेज: हर फ़ाइल के लिए 1,000 पेज
- हर फ़ाइल के लिए ज़्यादा से ज़्यादा साइज़: हर फ़ाइल के लिए 50 एमबी
दस्तावेज़: टोकनाइज़ेशन
PDF का टोकनाइज़ेशन
PDF को इमेज के तौर पर प्रोसेस किया जाता है. इसलिए, PDF के हर पेज को इमेज की तरह ही टोकनाइज़ किया जाता है.
इसके अलावा, PDF के लिए लगने वाली लागत, Gemini इमेज की कीमत के हिसाब से होती है. उदाहरण के लिए, अगर Gemini API कॉल में दो पेज वाली PDF शामिल की जाती है, तो आपको दो इमेज को प्रोसेस करने की इनपुट फ़ीस चुकानी होगी.
दस्तावेज़: सबसे सही तरीके
PDF का इस्तेमाल करते समय, सबसे अच्छे नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:
- अगर आपके प्रॉम्प्ट में एक PDF है, तो अपने अनुरोध में टेक्स्ट प्रॉम्प्ट से पहले PDF शामिल करें.
- अगर आपके पास कोई बड़ा दस्तावेज़ है, तो उसे प्रोसेस करने के लिए, कई PDF में बांटने पर विचार करें.
- स्कैन की गई इमेज में मौजूद टेक्स्ट के बजाय, टेक्स्ट के तौर पर रेंडर किए गए टेक्स्ट से बनाई गई PDF का इस्तेमाल करें. इस फ़ॉर्मैट से यह पक्का होता है कि टेक्स्ट को मशीन से पढ़ा जा सकता है. इसलिए, स्कैन की गई इमेज वाली PDF के मुकाबले, मॉडल के लिए टेक्स्ट को एडिट करना, खोजना, और उसमें बदलाव करना आसान होता है. कॉन्ट्रैक्ट जैसे टेक्स्ट वाले दस्तावेज़ों के साथ काम करते समय, इस तरीके से सबसे अच्छे नतीजे मिलते हैं.
दस्तावेज़: सीमाएं
Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल इस्तेमाल के कई मामलों में कारगर हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:
- स्पेशल रीज़निंग: मॉडल, PDF में मौजूद टेक्स्ट या ऑब्जेक्ट की सटीक पहचान नहीं कर पाते. वे ऑब्जेक्ट की अनुमानित संख्या ही दिखा सकते हैं.
- सटीकता: PDF दस्तावेज़ों में, हाथ से लिखे टेक्स्ट की व्याख्या करते समय मॉडल गलत जानकारी दे सकते हैं.