Vertex AI in Firebase SDK टूल का इस्तेमाल करके अपने ऐप्लिकेशन से Vertex AI Gemini API को कॉल करते समय, Gemini मॉडल को मल्टीमोडल इनपुट के आधार पर टेक्स्ट जनरेट करने के लिए प्रॉम्प्ट जनरेट किया जा सकता है. मल्टीमोडल प्रॉम्प्ट में कई मोड (या इनपुट के टाइप) शामिल हो सकते हैं. जैसे, इमेज, PDF, वीडियो, और ऑडियो के साथ टेक्स्ट.
इनपुट के बिना टेक्स्ट वाले हिस्सों (जैसे, मीडिया फ़ाइलें) के लिए, आपको काम करने वाले फ़ाइल टाइप का इस्तेमाल करना होगा. साथ ही, काम करने वाला MIME टाइप तय करना होगा. साथ ही, यह पक्का करना होगा कि आपकी फ़ाइलें और मल्टीमोडल अनुरोध ज़रूरी शर्तों को पूरा करते हों और सबसे सही तरीकों का पालन करते हों.
इस पेज पर, इनके लिए इस्तेमाल किए जा सकने वाले MIME टाइप, सबसे सही तरीके, और सीमाओं के बारे में बताया गया है:
Vertex AI in Firebase SDK टूल के लिए ज़रूरी शर्तें
Vertex AI in Firebase SDK टूल के लिए, अनुरोध का कुल साइज़ ज़्यादा से ज़्यादा 20 एमबी हो सकता है. अगर अनुरोध बहुत बड़ा है, तो आपको एचटीटीपी 413 गड़बड़ी का मैसेज मिलता है.
अगर किसी फ़ाइल की वजह से अनुरोध का कुल साइज़ 20 एमबी से ज़्यादा हो जाता है, तो मल्टीमोडल अनुरोध में फ़ाइल को शामिल करने के लिए, Cloud Storage for Firebase यूआरएल का इस्तेमाल करें.
अगर कोई फ़ाइल छोटी है, तो उसे सीधे इनलाइन डेटा के तौर पर पास किया जा सकता है. हालांकि, ध्यान रखें कि इनलाइन डेटा के तौर पर दी गई फ़ाइल को एक जगह से दूसरी जगह भेजने के दौरान, base64 में एन्कोड किया जाता है. इससे अनुरोध का साइज़ बढ़ जाता है. फ़ाइलों को इनलाइन डेटा के तौर पर शामिल करने का तरीका जानने के लिए, Gemini API का इस्तेमाल करके, अलग-अलग तरह के प्रॉम्प्ट से टेक्स्ट जनरेट करना लेख पढ़ें.
इमेज: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं
इमेज: ज़रूरी शर्तें
इस सेक्शन में, इमेज के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.
इस्तेमाल किए जा सकने वाले MIME टाइप
Gemini के मल्टीमोडल मॉडल, इन इमेज MIME टाइप के साथ काम करते हैं:
इमेज का MIME टाइप | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
|||
WebP - image/webp |
हर अनुरोध के लिए सीमाएं
किसी इमेज में पिक्सल की संख्या तय नहीं होती. हालांकि, बड़ी इमेज को छोटा करके और पैड करके, 3072 x 3072 पिक्सल के ज़्यादा से ज़्यादा रिज़ॉल्यूशन में फ़िट किया जाता है. ऐसा करते समय, इमेज के मूल आसपेक्ट रेशियो को बनाए रखा जाता है.
प्रॉम्प्ट अनुरोध में, ज़्यादा से ज़्यादा इतनी इमेज फ़ाइलें जोड़ी जा सकती हैं:
- Gemini 1.0 Pro Vision: 16 इमेज
- Gemini 1.5 Flash और Gemini 1.5 Pro: 3,000 इमेज
इमेज: टोकनाइज़ेशन
इमेज के लिए टोकन की गिनती इस तरह की जाती है:
- Gemini 1.0 Pro Vision: हर इमेज के लिए 258 टोकन लगते हैं.
- Gemini 1.5 Flash और
Gemini 1.5 Pro:
- अगर किसी इमेज के दोनों डाइमेंशन 384 पिक्सल या उससे कम हैं, तो 258 टोकन का इस्तेमाल किया जाता है.
- अगर किसी इमेज का एक डाइमेंशन 384 पिक्सल से ज़्यादा है, तो इमेज को टाइल में काट दिया जाता है. हर टाइल का साइज़ डिफ़ॉल्ट रूप से, सबसे छोटे डाइमेंशन (चौड़ाई या ऊंचाई) को 1.5 से भाग देने पर मिलता है. ज़रूरत पड़ने पर, हर टाइल में बदलाव किया जाता है, ताकि उसका साइज़ 256 पिक्सल से कम और 768 पिक्सल से ज़्यादा न हो. इसके बाद, हर टाइल का साइज़ 768x768 कर दिया जाता है और इसमें 258 टोकन का इस्तेमाल किया जाता है.
इमेज: सबसे सही तरीके
इमेज इस्तेमाल करते समय, सबसे अच्छे नतीजे पाने के लिए इन सबसे सही तरीकों और जानकारी का इस्तेमाल करें:
- अगर आपको किसी इमेज में टेक्स्ट का पता लगाना है, तो एक इमेज वाले प्रॉम्प्ट का इस्तेमाल करें. इससे, कई इमेज वाले प्रॉम्प्ट के मुकाबले बेहतर नतीजे मिलेंगे.
- अगर आपके प्रॉम्प्ट में एक इमेज है, तो अपने अनुरोध में टेक्स्ट प्रॉम्प्ट से पहले इमेज डालें.
- अगर आपके प्रॉम्प्ट में कई इमेज हैं और आपको इन्हें अपने प्रॉम्प्ट में बाद में रेफ़र करना है या मॉडल को इन्हें अपने जवाब में रेफ़र करना है, तो हर इमेज के पहले इंडेक्स जोड़ें. अपने इंडेक्स के लिए,
याa
b
c
का इस्तेमाल करें. यहां, प्रॉम्प्ट में इंडेक्स की गई इमेज इस्तेमाल करने का उदाहरण दिया गया है:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - हाई रिज़ॉल्यूशन वाली इमेज का इस्तेमाल करें. इससे बेहतर नतीजे मिलते हैं.
- प्रॉम्प्ट में कुछ उदाहरण शामिल करें.
- प्रॉम्प्ट में इमेज जोड़ने से पहले, उन्हें सही ओरिएंटेशन में घुमाएं.
- धुंधली इमेज अपलोड न करें.
इमेज: सीमाएं
Gemini के मल्टीमोडल मॉडल की मदद से, कई मॉडल का इस्तेमाल किया जा सकता है. हालाँकि, इन मॉडल की सीमाओं को समझना बहुत ज़रूरी है:
- कॉन्टेंट मॉडरेशन: मॉडल, सुरक्षा से जुड़ी हमारी नीतियों का उल्लंघन करने वाली इमेज के बारे में जवाब देने से मना करते हैं.
- स्पेशल रीज़निंग: मॉडल, इमेज में टेक्स्ट या ऑब्जेक्ट की सटीक जगह का पता नहीं लगा पाते. हो सकता है कि वे सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
- मेडिकल इस्तेमाल: ये मॉडल, मेडिकल इमेज (उदाहरण के लिए, एक्स-रे और सीटी स्कैन) का विश्लेषण करने या मेडिकल सलाह देने के लिए सही नहीं हैं.
- लोगों की पहचान करना: मॉडल का इस्तेमाल, इमेज में मौजूद उन लोगों की पहचान करने के लिए नहीं किया जाना चाहिए जो मशहूर नहीं हैं.
- सटीक जानकारी: खराब क्वालिटी, घुमाई गई या बहुत कम रिज़ॉल्यूशन वाली इमेज का विश्लेषण करते समय, मॉडल गलत जानकारी दे सकते हैं या गड़बड़ियां कर सकते हैं. इमेज वाले दस्तावेज़ों में, हाथ से लिखे गए टेक्स्ट का अनुवाद करते समय भी मॉडल गलत नतीजे दे सकते हैं.
वीडियो: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं
वीडियो: ज़रूरी शर्तें
इस सेक्शन में, वीडियो के लिए किए जाने वाले हर अनुरोध के लिए, इस्तेमाल किए जा सकने वाले MIME टाइप और उनकी सीमाओं के बारे में जानें.
इस्तेमाल किए जा सकने वाले MIME टाइप
Gemini के मल्टीमोडल मॉडल, वीडियो के इन MIME टाइप के साथ काम करते हैं:
वीडियो MIME टाइप | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/quicktime |
|||
MPEG - video/mpeg |
|||
एमपीईजीपीएस - video/mpegps |
|||
मील प्रति गैलन (एमपीजी) - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
हर अनुरोध के लिए सीमाएं
प्रॉम्प्ट के अनुरोध में, ज़्यादा से ज़्यादा कितनी वीडियो फ़ाइलें अपलोड की जा सकती हैं, इसकी जानकारी यहां दी गई है:
- Gemini 1.0 Pro Vision: एक वीडियो फ़ाइल
- Gemini 1.5 Flash और Gemini 1.5 Pro: 10 वीडियो फ़ाइलें
वीडियो: टोकनाइज़ेशन
वीडियो के लिए टोकन की गिनती करने का तरीका यहां बताया गया है:
- Gemini के सभी मल्टीमॉडल मॉडल: वीडियो का सैंपल,
1 फ़्रेम प्रति सेकंड (फ़्रेम प्रति सेकंड) के हिसाब से लिया जाता है. हर वीडियो फ़्रेम के लिए 258 टोकन होते हैं. - Gemini 1.5 Flash और
Gemini 1.5 Pro: ऑडियो ट्रैक को वीडियो फ़्रेम के साथ एन्कोड किया जाता है. ऑडियो ट्रैक को भी
एक सेकंड के ट्रंक में बांटा जाता है. हर ट्रंक में 32 टोकन होते हैं. वीडियो फ़्रेम और ऑडियो टोकन को उनके टाइमस्टैंप के साथ इंटरलीव किया जाता है. टाइमस्टैंप सात टोकन के तौर पर दिखाए जाते हैं.
वीडियो: सबसे सही तरीके
वीडियो का इस्तेमाल करते समय, सबसे सही तरीकों और जानकारी का इस्तेमाल करके सबसे बेहतर नतीजे पाएं:
- अगर आपके प्रॉम्प्ट में एक वीडियो है, तो वीडियो को टेक्स्ट प्रॉम्प्ट से पहले रखें.
- अगर आपको ऑडियो वाले वीडियो में टाइमस्टैंप का स्थानीय भाषा में अनुवाद चाहिए, तो मॉडल को
MM:SS
फ़ॉर्मैट में टाइमस्टैंप जनरेट करने के लिए कहें. इस फ़ॉर्मैट में, पहले दो अंक मिनट और आखिरी दो अंक सेकंड दिखाते हैं. टाइमस्टैंप के बारे में पूछने वाले सवालों के लिए, एक ही फ़ॉर्मैट का इस्तेमाल करें. Gemini 1.0 Pro Vision का इस्तेमाल करने पर, इन बातों का ध्यान रखें:
- एक प्रॉम्प्ट में एक से ज़्यादा वीडियो का इस्तेमाल न करें.
- मॉडल, वीडियो के सिर्फ़ पहले दो मिनट में मौजूद जानकारी को प्रोसेस करता है.
- मॉडल, वीडियो को अलग-अलग इमेज फ़्रेम के तौर पर प्रोसेस करता है. इसमें ऑडियो शामिल नहीं होता. अगर आपको लगता है कि मॉडल ने वीडियो में कुछ कॉन्टेंट रिकॉर्ड नहीं किया है, तो वीडियो को छोटा करें, ताकि मॉडल वीडियो के ज़्यादा से ज़्यादा हिस्से को रिकॉर्ड कर सके.
- यह मॉडल, ऑडियो से जुड़ी किसी भी जानकारी या टाइमस्टैंप मेटाडेटा को प्रोसेस नहीं करता. इस वजह से, हो सकता है कि मॉडल उन इस्तेमाल के उदाहरणों में अच्छा परफ़ॉर्म न करे जिनमें ऑडियो इनपुट की ज़रूरत होती है. जैसे, ऑडियो को कैप्शन में बदलना या समय से जुड़ी जानकारी, जैसे कि स्पीड या लय.
वीडियो: सीमाएं
Gemini के मल्टीमोडल मॉडल, मल्टीमोडल इस्तेमाल के कई मामलों में बेहतरीन होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:
- कॉन्टेंट मॉडरेशन: मॉडल, सुरक्षा से जुड़ी हमारी नीतियों का उल्लंघन करने वाले वीडियो के बारे में जवाब देने से मना करते हैं.
- बोली के अलावा अन्य आवाज़ों को पहचानने की सुविधा: ऑडियो की सुविधा वाले मॉडल, बोली के अलावा अन्य आवाज़ों को पहचानने में गड़बड़ियां कर सकते हैं.
- तेज़ रफ़्तार से होने वाली गति:
एक फ़्रेम प्रति सेकंड (एफ़पीएस) के सैंपलिंग रेट की वजह से, मॉडल वीडियो में तेज़ रफ़्तार से होने वाली गति को समझने में गड़बड़ियां कर सकते हैं. - ट्रांसक्रिप्ट में विराम चिह्न: (Gemini 1.5 Flash का इस्तेमाल करने पर) मॉडल, ऐसे ट्रांसक्रिप्शन भी दिखा सकते हैं जिनमें विराम चिह्न का इस्तेमाल नहीं किया गया हो.
ऑडियो: ज़रूरी शर्तें और सीमाएं
ऑडियो: ज़रूरी शर्तें
इस सेक्शन में, ऑडियो के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.
इस्तेमाल किए जा सकने वाले MIME टाइप
Gemini के मल्टीमोडल मॉडल, ऑडियो के इन MIME टाइप के साथ काम करते हैं:
ऑडियो का MIME टाइप | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
एमपीए - audio/m4a |
||
MPEG - audio/mpeg |
||
एमपीजीए - audio/mpga |
||
MP4 - audio/mp4 |
||
ओपीयूएस - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
हर अनुरोध के लिए सीमाएं
प्रॉम्प्ट के अनुरोध में, ज़्यादा से ज़्यादा
ऑडियो: सीमाएं
Gemini के मल्टीमोडल मॉडल की मदद से, कई मॉडल का इस्तेमाल किया जा सकता है. हालाँकि, इन मॉडल की सीमाओं को समझना बहुत ज़रूरी है:
- बोली के अलावा अन्य आवाज़ों को पहचानने की सुविधा: ऑडियो की सुविधा वाले मॉडल, बोली के अलावा अन्य आवाज़ों को पहचानने में गड़बड़ियां कर सकते हैं.
- सिर्फ़ ऑडियो वाले टाइमस्टैंप: सिर्फ़-ऑडियो वाली फ़ाइलों के टाइमस्टैंप सही तरीके से जनरेट करने के लिए, आपको
generation_config
मेंaudio_timestamp
पैरामीटर कॉन्फ़िगर करना होगा. - ट्रांसक्रिप्शन में विराम चिह्न: (अगर Gemini 1.5 Flash का इस्तेमाल किया जा रहा है) हो सकता है कि मॉडल, ऐसे ट्रांसक्रिप्शन दिखाएं जिनमें विराम चिह्न शामिल न हों.
दस्तावेज़ (जैसे कि PDF): ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं
दस्तावेज़: ज़रूरी शर्तें
इस सेक्शन में, दस्तावेज़ों (जैसे PDF) के लिए काम करने वाले MIME टाइप और हर अनुरोध की सीमाओं के बारे में जानें.
इस्तेमाल किए जा सकने वाले MIME टाइप
Gemini के मल्टीमोडल मॉडल, दस्तावेज़ के इन MIME टाइप के साथ काम करते हैं:
दस्तावेज़ का MIME टाइप | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro विज़न |
---|---|---|---|
PDF - application/pdf |
|||
टेक्स्ट - text/plain |
हर अनुरोध के लिए सीमाएं
PDF फ़ाइलों को इमेज के तौर पर माना जाता है. इसलिए, PDF के एक पेज को एक इमेज माना जाता है. प्रॉम्प्ट में पेजों की संख्या, उन इमेज की संख्या तक सीमित होती है जिनका इस्तेमाल मॉडल कर सकता है:
- Gemini 1.0 Pro Vision: 16 पेज
- Gemini 1.5 Pro और Gemini 1.5 Flash: 1,000 पेज
दस्तावेज़: टोकनाइज़ेशन
PDF टोकनाइज़ेशन
PDF को इमेज के तौर पर माना जाता है. इसलिए, PDF के हर पेज को उसी तरह टोकन में बदला जाता है जिस तरह किसी इमेज को बदला जाता है.
साथ ही, PDF फ़ाइलों की कीमत, Gemini की इमेज की कीमत के हिसाब से तय होती है. उदाहरण के लिए, अगर आपने Gemini API कॉल में दो पेज का PDF शामिल किया है, तो आपको दो इमेज प्रोसेस करने के लिए इनपुट फ़ीस देनी होगी.
सामान्य टेक्स्ट को टोकन में बदलना
सादे टेक्स्ट वाले दस्तावेज़ों को टेक्स्ट के तौर पर टोकन के तौर पर दिखाया जाता है. उदाहरण के लिए, अगर आपने Gemini API कॉल में 100 शब्दों का प्लैन टेक्स्ट वाला दस्तावेज़ शामिल किया है, तो आपको 100 शब्दों को प्रोसेस करने के लिए इनपुट शुल्क देना होगा.
दस्तावेज़: सबसे सही तरीके
PDF का इस्तेमाल करते समय, सबसे अच्छे नतीजे पाने के लिए इन सबसे सही तरीकों और जानकारी का इस्तेमाल करें:
- अगर आपके प्रॉम्प्ट में एक PDF है, तो अपने अनुरोध में टेक्स्ट प्रॉम्प्ट से पहले PDF को रखें.
- अगर आपके पास कोई लंबा दस्तावेज़ है, तो उसे प्रोसेस करने के लिए, कई PDF में बांटें.
- स्कैन की गई इमेज में मौजूद टेक्स्ट के बजाय, टेक्स्ट के तौर पर रेंडर किए गए टेक्स्ट से बनाए गए PDF का इस्तेमाल करें. यह फ़ॉर्मैट पक्का करता है कि टेक्स्ट, मशीन से पढ़ा जा सके. इससे मॉडल को स्कैन की गई इमेज की PDF फ़ाइलों के मुकाबले, उनमें बदलाव करने, उन्हें खोजने, और उनमें बदलाव करने में आसानी होती है. कॉन्ट्रैक्ट जैसे ज़्यादा टेक्स्ट वाले दस्तावेज़ों पर काम करते समय, यह तरीका सबसे बेहतर नतीजे देता है.
दस्तावेज़: सीमाएं
Gemini के मल्टीमोडल मॉडल, मल्टीमोडल इस्तेमाल के कई मामलों में बेहतरीन होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:
- स्पेशल रीज़निंग: मॉडल, PDF में टेक्स्ट या ऑब्जेक्ट को सटीक तरीके से नहीं खोज पाते. हो सकता है कि वे सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
- सटीक जानकारी: PDF दस्तावेज़ों में, हाथ से लिखे गए टेक्स्ट को समझने के दौरान, मॉडल गलत जानकारी दे सकते हैं.