इसका इस्तेमाल करके अपने ऐप्लिकेशन से Vertex AI Gemini API को कॉल करते समय Vertex AI in Firebase SDK टूल, Gemini मॉडल को टेक्स्ट जनरेट करने के लिए कहा जा सकता है जो मल्टीमोडल इनपुट के हिसाब से हो. मल्टीमोडल प्रॉम्प्ट में कई विकल्प हो सकते हैं (या इनपुट के टाइप). जैसे, इमेज के साथ-साथ टेक्स्ट, PDF, वीडियो, और ऑडियो.
इनपुट के बिना टेक्स्ट वाले हिस्सों (जैसे, मीडिया फ़ाइलें) के लिए, आपको समर्थित फ़ाइल प्रकार, एक समर्थित MIME प्रकार निर्दिष्ट करें, और सुनिश्चित करें कि फ़ाइलें और मल्टीमोडल अनुरोध ज़रूरी शर्तों को पूरा करते हों और सबसे सही तरीकों का पालन करते हों.
इस पेज पर, इस्तेमाल किए जा सकने वाले MIME टाइप, सबसे सही तरीकों, और सीमाओं के बारे में बताया गया है लागू होगा:
Vertex AI in Firebase SDK टूल से जुड़ी ज़रूरी शर्तें
Vertex AI in Firebase SDK टूल के लिए, ज़्यादा से ज़्यादा साइज़ इतना ही अनुरोध किया जा सकता है 20 एमबी हो. अगर कोई अनुरोध बहुत बड़ा होता है, तो आपको HTTP 413 गड़बड़ी मिलती है.
अगर किसी फ़ाइल का साइज़, अनुरोध की कुल संख्या 20 एमबी से ज़्यादा हो जाएगा, तो मल्टीमॉडल अनुरोध में फ़ाइल को शामिल करने के लिए, Cloud Storage for Firebase के यूआरएल का इस्तेमाल करें.
अगर कोई फ़ाइल छोटी है, तो उसे सीधे इनलाइन डेटा के तौर पर भेजा जा सकता है. हालांकि, इनलाइन डेटा के तौर पर दी गई फ़ाइल को base64 में एन्कोड किया जाता है ट्रांज़िट, जिससे अनुरोध का साइज़ बढ़ जाता है. उदाहरण के लिए, फ़ाइलों को इनलाइन डेटा के रूप में शामिल करें, देखें Gemini API का इस्तेमाल करके, मल्टीमोडल प्रॉम्प्ट से टेक्स्ट जनरेट करना.
इमेज: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं
इमेज: ज़रूरी शर्तें
इस सेक्शन में, हर अनुरोध के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और सीमाओं के बारे में जानें इमेज.
इस्तेमाल किए जा सकने वाले MIME टाइप
Gemini के मल्टीमोडल मॉडल, इन इमेज MIME टाइप के साथ काम करते हैं:
इमेज MIME टाइप | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro विज़न |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
हर अनुरोध के लिए सीमाएं
किसी इमेज में कितने पिक्सल हो सकते हैं, इसकी कोई तय सीमा नहीं है. हालांकि, बड़ी इमेज को छोटा किया जाता है और 3072 x के ज़्यादा से ज़्यादा रिज़ॉल्यूशन में फ़िट करने के लिए पैड किया जाता है 3072 और उसके ओरिजनल आसपेक्ट रेशियो (लंबाई-चौड़ाई का अनुपात) में ही बदलाव होगा.
प्रॉम्प्ट के अनुरोध में इमेज फ़ाइलों की ज़्यादा से ज़्यादा संख्या यहां दी गई है:
- Gemini 1.0 Pro Vision: 16 इमेज
- Gemini 1.5 Flash और Gemini 1.5 Pro: 3,000 इमेज
इमेज: टोकनाइज़ेशन
इमेज के लिए टोकन का हिसाब लगाने का तरीका यहां बताया गया है:
- Gemini 1.0 Pro Vision: हर इमेज के बारे में जानकारी 258 टोकन के लिए.
- Gemini 1.5 Flash और
Gemini 1.5 Pro:
- अगर किसी इमेज के दोनों डाइमेंशन 384 पिक्सल या उससे कम हैं, तब 258 टोकन इस्तेमाल किए जाते हैं.
- अगर किसी इमेज का एक डाइमेंशन 384 पिक्सल से ज़्यादा है, तो इमेज को टाइल में काट दिया गया है. हर टाइल का डिफ़ॉल्ट साइज़ सबसे छोटा होता है डाइमेंशन (चौड़ाई या ऊंचाई) को 1.5 से भाग देने पर मिलने वाली संख्या. अगर ज़रूरी हो, तो हर टाइल अडजस्ट किया गया है, ताकि यह 256 पिक्सल से छोटा न हो और इससे ज़्यादा न हो 768 पिक्सल. इसके बाद, हर टाइल का साइज़ बदलकर 768x768 किया जाता है और इसमें 258 टोकन इस्तेमाल किए जाते हैं.
इमेज: सबसे सही तरीके
इमेज का इस्तेमाल करते समय, नीचे दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें सर्वोत्तम परिणाम:
- अगर आपको किसी इमेज में मौजूद टेक्स्ट की पहचान करनी है, तो एक इमेज के साथ प्रॉम्प्ट का इस्तेमाल करें, ताकि कई इमेज वाले प्रॉम्प्ट के मुकाबले, बेहतर नतीजे देते हैं.
- अगर आपके प्रॉम्प्ट में एक ही इमेज है, तो इमेज को टेक्स्ट से पहले रखें प्रॉम्प्ट शामिल करें.
- अगर आपके प्रॉम्प्ट में कई इमेज हैं और आपको उनके बारे में जानना है, तो
या फिर मॉडल से मॉडल को मिले जवाब में उन्हें रेफ़र करने के लिए कहें,
इससे हर इमेज को इमेज से पहले एक इंडेक्स देने में मदद मिल सकती है. इस्तेमाल की जाने वाली चीज़ें
याa
b
c
सबसे सही रहेगा. यहां इंडेक्स की गई इमेज का एक उदाहरण दिया गया है, जिसमें प्रॉम्प्ट:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - ज़्यादा रिज़ॉल्यूशन वाली इमेज का इस्तेमाल करें; तो वे बेहतर नतीजे देते हैं.
- प्रॉम्प्ट में कुछ उदाहरण शामिल करें.
- इमेज को इमेज के सही ओरिएंटेशन में जोड़ने से पहले, इमेज को सही दिशा में घुमाएं प्रॉम्प्ट.
- धुंधली इमेज अपलोड न करें.
इमेज: सीमाएं
Gemini के मल्टीमोडल मॉडल कई तरह से मल्टीमॉडल इस्तेमाल करने में कारगर होते हैं इसलिए, मॉडल की सीमाओं को समझना ज़रूरी है:
- कॉन्टेंट मॉडरेशन: मॉडल, जवाब देने से मना करते हैं उन इमेज के लिए जो हमारी सुरक्षा नीतियों का उल्लंघन करती हैं.
- स्पेशल रीज़निंग: मॉडल, जगह की सटीक जानकारी का पता नहीं लगा पाते इमेज में मौजूद टेक्स्ट या चीज़ें. हो सकता है कि वे सिर्फ़ ऑब्जेक्ट हैं.
- इलाज में इस्तेमाल: मॉडल, जानकारी देने के लिए सही नहीं हैं मेडिकल इमेज (जैसे, एक्स-रे और सीटी स्कैन) या इलाज से जुड़ी जानकारी देना सलाह.
- लोगों की पहचान करना: मॉडल का इस्तेमाल इन कामों के लिए नहीं किया जाना चाहिए उन लोगों की पहचान करने के लिए जो इमेज में मौजूद मशहूर हस्ती नहीं हैं.
- सटीक काम करना: मॉडल, आपको सही जानकारी दे सकते हैं या उनसे ग़लतियाँ हो सकती हैं का इस्तेमाल करते हैं. मॉडल, हैंडराइटिंग टेक्स्ट को पढ़ते समय भी आपको गलत जानकारी दे सकता है इमेज दस्तावेज़.
वीडियो: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं
वीडियो: आवश्यकताएं
इस सेक्शन में, हर अनुरोध के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और सीमाओं के बारे में जानें वीडियो.
इस्तेमाल किए जा सकने वाले MIME टाइप
Gemini के मल्टीमोडल मॉडल इन वीडियो MIME टाइप के साथ काम करते हैं:
वीडियो MIME टाइप | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro विज़न |
---|---|---|---|
FLV - video/x-flv |
|||
एमओवी - video/mov |
|||
एमपीईजी - video/mpeg |
|||
एमपीईजीपीएस - video/mpegps |
|||
एमपीजी - video/mpg |
|||
MP4 - video/mp4 |
|||
WebM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
हर अनुरोध के लिए सीमाएं
प्रॉम्प्ट के अनुरोध में, ज़्यादा से ज़्यादा कितनी वीडियो फ़ाइलें अपलोड की जा सकती हैं, इसकी जानकारी यहां दी गई है:
- Gemini 1.0 Pro Vision: एक वीडियो फ़ाइल
- Gemini 1.5 Flash और Gemini 1.5 Pro: 10 वीडियो फ़ाइलें
वीडियो: टोकनाइज़ेशन
वीडियो के लिए टोकन का हिसाब लगाने का तरीका यहां बताया गया है:
- Gemini के सभी मल्टीमोडल मॉडल: वीडियो का सैंपल यहां दिया जाता है
1 फ़्रेम प्रति सेकंड (फ़्रेम प्रति सेकंड) . हर वीडियो फ़्रेम की संख्या 258 होती है टोकन. - Gemini 1.5 Flash और
Gemini 1.5 Pro: ऑडियो ट्रैक को कोड में बदला गया है
वीडियो फ़्रेम सेट अप करें. ऑडियो ट्रैक को भी
1-सेकंड वाले ट्रंक जो हर 32 टोकन के लिए हैं. वीडियो फ़्रेम और ऑडियो टोकन, उनके टाइमस्टैंप के साथ शामिल किए जाते हैं. कॉन्टेंट बनाने टाइमस्टैंप, सात टोकन के तौर पर दिखाए जाते हैं.
वीडियो: सबसे सही तरीके
वीडियो का इस्तेमाल करते समय, नीचे दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें सर्वोत्तम परिणाम:
- अगर प्रॉम्प्ट में एक वीडियो है, तो वीडियो को टेक्स्ट से पहले रखें प्रॉम्प्ट.
- अगर आपको ऑडियो वाले वीडियो में टाइमस्टैंप को स्थानीय भाषा के अनुसार बनाना है, तो मॉडल से पूछें
MM:SS
फ़ॉर्मैट में टाइमस्टैंप जनरेट करने के लिए, जहां पहले दो फ़ॉर्मैट में अंक मिनट दिखाते हैं और आखिरी दो अंक सेकंड दिखाते हैं. इसका इस्तेमाल करें टाइमस्टैंप के बारे में पूछने वाले सवालों के लिए एक ही फ़ॉर्मैट. अगर Gemini 1.0 Pro Vision का इस्तेमाल किया जा रहा है, तो इन बातों का ध्यान रखें:
- एक प्रॉम्प्ट में एक से ज़्यादा वीडियो का इस्तेमाल न करें.
- मॉडल, जानकारी को सिर्फ़ शुरुआती दो मिनट में प्रोसेस करता है वीडियो.
- यह मॉडल, वीडियो को प्रोसेस करने के लिए, वीडियो. इसमें ऑडियो शामिल नहीं है. अगर आपको लगता है कि मॉडल में कुछ वीडियो के कॉन्टेंट को छोटा करें, ताकि मॉडल वीडियो कॉन्टेंट के बड़े हिस्से को कैप्चर करता हो.
- मॉडल, ऑडियो से जुड़ी किसी भी जानकारी या टाइमस्टैंप को प्रोसेस नहीं करता मेटाडेटा. इस वजह से, हो सकता है कि यह मॉडल इस्तेमाल के मामलों में अच्छा परफ़ॉर्म न करे जिसके लिए ऑडियो इनपुट की ज़रूरत हो, जैसे कि ऑडियो कैप्शन या समय से संबंधित जैसी जानकारी, जैसे कि गति या लय-ताल.
वीडियो: सीमाएं
Gemini के मल्टीमोडल मॉडल कई तरह से मल्टीमॉडल इस्तेमाल करने में कारगर होते हैं इसलिए, मॉडल की सीमाओं को समझना ज़रूरी है:
- कॉन्टेंट मॉडरेशन: मॉडल, जवाब देने से मना करते हैं जो हमारी सुरक्षा नीतियों का उल्लंघन करते हैं.
- बोली न जाने वाली आवाज़ की पहचान करना: Assistant के साथ काम करने वाले मॉडल ऑडियो की वजह से, गैर-बोली की आवाज़ पहचानने में गलती हो सकती है.
- हाई-स्पीड मोशन: मॉडल की मदद से गलतियां हो सकती हैं
तय की गई वैल्यू की वजह से वीडियो में होने वाली हाई-स्पीड मोशन के बारे में समझना
1 फ़्रेम प्रति सेकंड (फ़्रेम प्रति सेकंड) सैंपलिंग रेट. - बोली को लेख में बदलने वाले विराम चिह्न: (Gemini 1.5 Flash का इस्तेमाल करने पर) मॉडल बिना विराम चिह्न वाले ट्रांसक्रिप्शन दिखाए.
ऑडियो: ज़रूरी शर्तें और सीमाएं
ऑडियो: ज़रूरी शर्तें
इस सेक्शन में, हर अनुरोध के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और सीमाओं के बारे में जानें ऑडियो.
इस्तेमाल किए जा सकने वाले MIME टाइप
Gemini के मल्टीमोडल मॉडल इस तरह के ऑडियो MIME टाइप के साथ काम करते हैं:
ऑडियो MIME टाइप | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
एएसी - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
एमपीए - audio/m4a |
||
एमपीईजी - audio/mpeg |
||
एमपीजीए - audio/mpga |
||
MP4 - audio/mp4 |
||
ओपीयूएस - audio/opus |
||
पीसीएम - audio/pcm |
||
WAV - audio/wav |
||
WebM - audio/webm |
हर अनुरोध के लिए सीमाएं
प्रॉम्प्ट के अनुरोध में, ज़्यादा से ज़्यादा
ऑडियो: सीमाएं
Gemini के मल्टीमोडल मॉडल कई तरह से मल्टीमॉडल इस्तेमाल करने में कारगर होते हैं इसलिए, मॉडल की सीमाओं को समझना ज़रूरी है:
- बोली न जाने वाली आवाज़ की पहचान करना: Assistant के साथ काम करने वाले मॉडल ऑडियो की वजह से, गैर-बोली की आवाज़ पहचानने में गलती हो सकती है.
- सिर्फ़ ऑडियो के टाइमस्टैंप: ऑडियो के साथ काम करने वाले मॉडल ऑडियो फ़ाइलों वाले अनुरोधों के लिए, सटीक टाइमस्टैंप जनरेट नहीं किया जा सकता. यह इसमें सेगमेंटेशन और समय के हिसाब से स्थानीय भाषा के मुताबिक बनाए गए टाइमस्टैंप शामिल होते हैं. टाइमस्टैंप उस इनपुट के लिए सही तरीके से जनरेट किया जाना चाहिए जिसमें ऑडियो वाला वीडियो शामिल हो.
- बोली को लेख में बदलने वाले विराम चिह्न: (Gemini 1.5 Flash का इस्तेमाल करने पर) मॉडल बिना विराम चिह्न वाले ट्रांसक्रिप्शन दिखाए.
दस्तावेज़ (जैसे कि PDF): ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं
दस्तावेज़: ज़रूरी शर्तें
इस सेक्शन में, हर अनुरोध के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और सीमाओं के बारे में जानें दस्तावेज़ (जैसे PDF).
इस्तेमाल किए जा सकने वाले MIME टाइप
Gemini के मल्टीमोडल मॉडल इन दस्तावेज़ों के MIME टाइप के साथ काम करते हैं:
दस्तावेज़ का MIME टाइप | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro विज़न |
---|---|---|---|
PDF - application/pdf |
हर अनुरोध के लिए सीमाएं
PDF को इमेज माना जाता है. इसलिए, PDF के एक पेज को एक पेज माना जाता है इमेज. प्रॉम्प्ट में पेज की संख्या सिर्फ़ इस सीमा तक सीमित होती है ऐसी इमेज जिनका इस्तेमाल मॉडल कर सके:
- Gemini 1.0 Pro Vision: 16 पेज
- Gemini 1.5 Pro और Gemini 1.5 Flash: 1,000 पेज
दस्तावेज़: टोकनाइज़ेशन
PDF को इमेज माना जाता है. इसलिए, PDF का हर पेज एक ही बनाएगी.
साथ ही, PDF की लागत Gemini की इमेज की कीमत. उदाहरण के लिए, Gemini API कॉल में दो पेज की PDF फ़ाइल शामिल करने पर दो इमेज को प्रोसेस करने के लिए, इनपुट शुल्क देना पड़ता है.
दस्तावेज़: सबसे सही तरीके
PDF का इस्तेमाल करते समय, सर्वोत्तम परिणाम:
- अगर आपके प्रॉम्प्ट में एक PDF फ़ाइल है, तो PDF को टेक्स्ट से पहले रखें प्रॉम्प्ट शामिल करें.
- अगर आपके पास बड़ा दस्तावेज़ है, तो उसे कई PDF में बांट दें उसे प्रोसेस करने के लिए.
- जिन PDF फ़ाइलों में टेक्स्ट को रेंडर किया जाता है उन्हें स्कैन की गई इमेज. इस फ़ॉर्मैट से यह पक्का होता है कि टेक्स्ट को मशीन से पढ़ा जा सकता है, ताकि यह इससे मॉडल को स्कैन करने की तुलना में, उसमें बदलाव करना, उसे खोजना, और उसमें बदलाव करना ज़्यादा आसान लगता है चित्र PDF. इस तरीके का इस्तेमाल करने से, आपको सबसे अच्छे नतीजे मिलते हैं. बहुत ज़्यादा टेक्स्ट वाले दस्तावेज़, जैसे कि कॉन्ट्रैक्ट.
दस्तावेज़: सीमाएं
Gemini के मल्टीमोडल मॉडल कई तरह से मल्टीमॉडल इस्तेमाल करने में कारगर होते हैं इसलिए, मॉडल की सीमाओं को समझना ज़रूरी है:
- स्पेशल रीज़निंग: मॉडल, जगह की सटीक जानकारी का पता नहीं लगा पाते PDF में मौजूद टेक्स्ट या ऑब्जेक्ट. हो सकता है कि वे सिर्फ़ ऑब्जेक्ट हैं.
- सटीक काम करना: यह मॉडल, जानकारी देते समय गलत जानकारी दे सकता है PDF दस्तावेज़ों में हाथ से लिखा हुआ टेक्स्ट होता है.