The latest Gemini models, like Gemini 3.5 Flash, are available to use with Firebase AI Logic! Learn more.

Gemini 2.0 Flash and Flash-Lite models were shut down on June 1, 2026. To avoid service disruption, update to a newer model like gemini-3.1-flash-lite. Learn more.

All Imagen models will shut down on June 24, 2026. Learn about migrating your apps to use Nano Banana.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

इनपुट फ़ाइलों के लिए इस्तेमाल किए जा सकने वाले फ़ॉर्मैट और ज़रूरी शर्तें

अपने ऐप्लिकेशन से Gemini API को कॉल करने के लिए, Firebase AI Logic SDK का इस्तेमाल किया जा सकता है. इसके लिए, Gemini मॉडल को मल्टीमॉडल इनपुट के आधार पर टेक्स्ट जनरेट करने के लिए कहा जा सकता है. जैसे, इमेज, वीडियो, ऑडियो, और दस्तावेज़ (जैसे कि PDF).

इसके लिए, आपको स्वीकार किए जाने वाले फ़ाइल टाइप इस्तेमाल करने होंगे. साथ ही, स्वीकार किए जाने वाले एमआईएमई टाइप की जानकारी देनी होगी. इसके अलावा, यह भी पक्का करना होगा कि आपकी फ़ाइलें और मल्टीमॉडल अनुरोध, ज़रूरी शर्तों के मुताबिक हों और सबसे सही तरीकों के हिसाब से हों.

यह पेज, GenerativeModel का इस्तेमाल करने के बारे में है. इसमें इन विषयों के बारे में बताया गया है:

अपने अनुरोध में फ़ाइलें शामिल करने के विकल्प.
इन फ़ाइल इनपुट के लिए, स्वीकार किए जाने वाले MIME टाइप, सबसे सही तरीके, और सीमाओं के बारे में जानकारी:
इमेज | वीडियो | ऑडियो | दस्तावेज़ (जैसे कि PDF).

मल्टीमॉडल अनुरोधों में फ़ाइलें शामिल करने के विकल्प

इस पेज पर, Gemini API उपलब्ध कराने वाली कंपनी के हिसाब से कॉन्टेंट देखने के लिए, उसे चुनें

हर मल्टीमॉडल अनुरोध में, आपको हमेशा यह जानकारी देनी होगी:

फ़ाइल का mimeType. इस पेज के लागू होने वाले सेक्शन में, हर इनपुट फ़ाइल के लिए स्वीकार किए जाने वाले MIME टाइप देखें.
फ़ाइल. फ़ाइल को इनलाइन डेटा के तौर पर शामिल किया जा सकता है या उसके यूआरएल का इस्तेमाल करके शामिल किया जा सकता है.

अनुरोध में शामिल की जा सकने वाली फ़ाइलों का साइज़ और संख्या, इनपुट फ़ाइल के टाइप, फ़ाइल शामिल करने के तरीके, और इस्तेमाल किए गए मॉडल पर निर्भर करती है. ज़्यादा जानकारी के लिए, इस पेज पर हर इनपुट फ़ाइल टाइप का सेक्शन देखें.

पहला विकल्प: फ़ाइल को इनलाइन डेटा के तौर पर शामिल करना

इनलाइन डेटा के तौर पर शामिल की गई फ़ाइलों के बारे में यहां दी गई जानकारी का ध्यान रखें:

सिर्फ़ छोटी फ़ाइलों को इनलाइन डेटा के तौर पर भेजा जा सकता है, क्योंकि अनुरोध के कुल साइज़ की सीमा 20 एमबी है.
ट्रांसफ़र के दौरान, फ़ाइल को base64 में एन्कोड किया जाता है. इससे फ़ाइल का साइज़ बढ़ जाता है.

इनलाइन डेटा के तौर पर फ़ाइल शामिल करने का तरीका जानने के लिए, टेक्स्ट और फ़ाइल (मल्टीमॉडल) इनपुट से टेक्स्ट जनरेट करना लेख पढ़ें. ध्यान दें कि Android और Apple प्लैटफ़ॉर्म के लिए SDK टूल, अनुरोधों में शामिल इनलाइन इमेज को बिना एमआईएमई टाइप की जानकारी दिए प्रोसेस कर सकते हैं. ज़्यादा जानें.

दूसरा विकल्प: यूआरएल का इस्तेमाल करके फ़ाइल शामिल करना

Gemini Developer API का इस्तेमाल करते समय, इन टाइप के यूआरएल इस्तेमाल किए जा सकते हैं:

YouTube वीडियो का यूआरएल: YouTube वीडियो सार्वजनिक या अनलिस्टेड होना चाहिए.

हर अनुरोध के लिए, YouTube वीडियो का एक यूआरएल दिया जा सकता है.

इमेज: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

इमेज: ज़रूरी शर्तें

इस सेक्शन में, इमेज के लिए स्वीकार किए जाने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.

स्वीकार किए जाने वाले MIME टाइप

Gemini के मल्टीमॉडल मॉडल, इमेज के इन MIME टाइप के साथ काम करते हैं:

PNG - image/png
JPEG - image/jpeg
WebP - image/webp

हर अनुरोध के लिए तय की गई सीमाएं

किसी इमेज में पिक्सल की संख्या के लिए कोई खास सीमा नहीं है. हालांकि, बड़ी इमेज को स्केल डाउन किया जाता है और पैड किया जाता है, ताकि वे 3072 x 3072 के ज़्यादा से ज़्यादा रिज़ॉल्यूशन में फ़िट हो सकें. साथ ही, उनका ओरिजनल आसपेक्ट रेशियो भी बना रहे.

हर अनुरोध के लिए ज़्यादा से ज़्यादा फ़ाइलें: 3,000 इमेज फ़ाइलें

इमेज: टोकनाइज़ेशन

इमेज के लिए टोकन कैसे कैलकुलेट किए जाते हैं, यह यहां बताया गया है:

अगर किसी इमेज के दोनों डाइमेंशन 384 पिक्सल या उससे कम हैं, तो 258 टोकन इस्तेमाल किए जाते हैं.
अगर किसी इमेज का एक डाइमेंशन 384 पिक्सल से ज़्यादा है, तो इमेज को टाइल में क्रॉप किया जाता है. हर टाइल का डिफ़ॉल्ट साइज़, सबसे छोटे डाइमेंशन (चौड़ाई या ऊंचाई) को 1.5 से भाग देने पर मिलने वाली वैल्यू होती है. ज़रूरत पड़ने पर, हर टाइल को अडजस्ट किया जाता है ताकि वह 256 पिक्सल से छोटी और 768 पिक्सल से बड़ी न हो. इसके बाद, हर टाइल का साइज़ बदलकर 768x768 कर दिया जाता है और इसके लिए 258 टोकन इस्तेमाल किए जाते हैं.

इमेज: सबसे सही तरीके

इमेज का इस्तेमाल करते समय, सबसे अच्छे नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:

अगर आपको किसी इमेज में मौजूद टेक्स्ट का पता लगाना है, तो एक इमेज वाले प्रॉम्प्ट का इस्तेमाल करें. इससे, एक से ज़्यादा इमेज वाले प्रॉम्प्ट के मुकाबले बेहतर नतीजे मिलते हैं.
अगर आपके प्रॉम्प्ट में एक इमेज है, तो अपने अनुरोध में टेक्स्ट प्रॉम्प्ट से पहले इमेज शामिल करें.
अगर आपके प्रॉम्प्ट में एक से ज़्यादा इमेज हैं और आपको बाद में अपने प्रॉम्प्ट में उनका रेफ़रंस देना है या मॉडल को मॉडल के जवाब में उनका रेफ़रंस देना है, तो हर इमेज से पहले इंडेक्स देना मददगार साबित हो सकता है. इंडेक्स के लिए, a b c या image 1 image 2 image 3 का इस्तेमाल करें. यहां, किसी प्रॉम्प्ट में इंडेक्स वाली इमेज का इस्तेमाल करने का एक उदाहरण दिया गया है:
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
ज़्यादा रिज़ॉल्यूशन वाली इमेज का इस्तेमाल करें. इनसे बेहतर नतीजे मिलते हैं.
प्रॉम्प्ट में कुछ उदाहरण शामिल करें.
इमेज को प्रॉम्प्ट में जोड़ने से पहले, उन्हें सही ओरिएंटेशन में घुमाएं.
धुंधली इमेज का इस्तेमाल न करें.

इमेज: सीमाएं

Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल इस्तेमाल के कई मामलों में कारगर हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

कॉन्टेंट मॉडरेशन: मॉडल, हमारी सुरक्षा से जुड़ी नीतियों का उल्लंघन करने वाली इमेज के बारे में जवाब नहीं देते.
स्पेशल रीज़निंग: मॉडल, इमेज में मौजूद टेक्स्ट या ऑब्जेक्ट की सटीक पहचान नहीं कर पाते. वे ऑब्जेक्ट की अनुमानित संख्या ही दिखा सकते हैं.
मेडिकल इस्तेमाल: मॉडल, मेडिकल इमेज (जैसे, एक्स-रे और सीटी स्कैन) की व्याख्या करने या मेडिकल सलाह देने के लिए सही नहीं हैं.
लोगों की पहचान: मॉडल का इस्तेमाल, इमेज में मौजूद उन लोगों की पहचान करने के लिए नहीं किया जाना चाहिए जो मशहूर हस्तियां नहीं हैं.
सटीकता: कम क्वालिटी, घुमाई गई या बहुत कम रिज़ॉल्यूशन वाली इमेज की व्याख्या करते समय, मॉडल गलत जानकारी दे सकते हैं या गलतियां कर सकते हैं. इमेज वाले दस्तावेज़ों में, हाथ से लिखे टेक्स्ट की व्याख्या करते समय भी मॉडल गलत जानकारी दे सकते हैं.

वीडियो: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

वीडियो: ज़रूरी शर्तें

इस सेक्शन में, वीडियो के लिए स्वीकार किए जाने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.

स्वीकार किए जाने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, वीडियो के इन MIME टाइप के साथ काम करते हैं:

FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

हर अनुरोध के लिए तय की गई सीमाएं

हर अनुरोध के लिए ज़्यादा से ज़्यादा फ़ाइलें: 10 वीडियो फ़ाइलें

वीडियो: टोकनाइज़ेशन

वीडियो के लिए टोकन कैसे कैलकुलेट किए जाते हैं, यह यहां बताया गया है:

ऑडियो ट्रैक को वीडियो फ़्रेम के साथ एन्कोड किया जाता है. ऑडियो ट्रैक को एक-एक सेकंड के हिस्सों में भी बांटा जाता है. हर हिस्से के लिए 32 टोकन इस्तेमाल किए जाते हैं. वीडियो फ़्रेम और ऑडियो टोकन को उनके टाइमस्टैंप के साथ इंटरलीव किया जाता है. टाइमस्टैंप को पांच टोकन के तौर पर दिखाया जाता है.
ऐसे वीडियो के लिए जिन्हें हर सेकंड एक या उससे कम फ़्रेम (एफ़पीएस) पर सैंपल किया जाता है, वीडियो के पहले घंटे के टाइमस्टैंप को हर वीडियो फ़्रेम के लिए पांच टोकन के तौर पर दिखाया जाता है. बाकी टाइमस्टैंप को हर वीडियो फ़्रेम के लिए सात टोकन के तौर पर दिखाया जाता है.
ऐसे वीडियो के लिए जिन्हें हर सेकंड एक से ज़्यादा फ़्रेम (एफ़पीएस) पर सैंपल किया जाता है, वीडियो के पहले घंटे के टाइमस्टैंप को हर वीडियो फ़्रेम के लिए नौ टोकन के तौर पर दिखाया जाता है. बाकी टाइमस्टैंप को हर वीडियो फ़्रेम के लिए 11 टोकन के तौर पर दिखाया जाता है.

वीडियो: सबसे सही तरीके

वीडियो का इस्तेमाल करते समय, सबसे अच्छे नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:

अगर आपके प्रॉम्प्ट में एक वीडियो है, तो टेक्स्ट प्रॉम्प्ट से पहले वीडियो शामिल करें.
अगर आपको ऑडियो वाले वीडियो में टाइमस्टैंप का स्थानीयकरण करना है, तो मॉडल से ऐसे टाइमस्टैंप जनरेट करने के लिए कहें जो "टाइमस्टैंप का फ़ॉर्मैट" में बताए गए फ़ॉर्मैट के मुताबिक हों.

वीडियो: सीमाएं

कॉन्टेंट मॉडरेशन: मॉडल, हमारी सुरक्षा से जुड़ी नीतियों का उल्लंघन करने वाले वीडियो के बारे में जवाब नहीं देते.
बिना आवाज़ वाली ध्वनि की पहचान: ऑडियो की सुविधा देने वाले मॉडल, आवाज़ के अलावा अन्य ध्वनियों की पहचान करने में गलतियां कर सकते हैं.

ऑडियो: ज़रूरी शर्तें और सीमाएं

ऑडियो: ज़रूरी शर्तें

इस सेक्शन में, ऑडियो के लिए स्वीकार किए जाने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.

स्वीकार किए जाने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, ऑडियो के इन MIME टाइप के साथ काम करते हैं:

AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

हर अनुरोध के लिए तय की गई सीमाएं

हर अनुरोध के लिए ज़्यादा से ज़्यादा फ़ाइलें: एक ऑडियो फ़ाइल

ऑडियो: सीमाएं

बिना आवाज़ वाली ध्वनि की पहचान: ऑडियो की सुविधा देने वाले मॉडल, आवाज़ के अलावा अन्य ध्वनियों की पहचान करने में गलतियां कर सकते हैं.
सिर्फ़ ऑडियो के लिए टाइमस्टैंप: सिर्फ़ ऑडियो वाली फ़ाइलों के लिए सटीक टाइमस्टैंप जनरेट करने के लिए, आपको audio_timestamp पैरामीटर को generation_config में कॉन्फ़िगर करना होगा.

दस्तावेज़ (जैसे कि PDF): ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

दस्तावेज़: ज़रूरी शर्तें

इस सेक्शन में, दस्तावेज़ों (जैसे कि PDF) के लिए स्वीकार किए जाने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.

स्वीकार किए जाने वाले MIME टाइप

Gemini के मल्टीमॉडल मॉडल, दस्तावेज़ों के इन MIME टाइप के साथ काम करते हैं:

PDF - application/pdf
टेक्स्ट - text/plain

हर अनुरोध के लिए तय की गई सीमाएं

PDF को इमेज के तौर पर प्रोसेस किया जाता है. इसलिए, PDF का एक पेज एक इमेज के तौर पर प्रोसेस किया जाता है. किसी प्रॉम्प्ट में शामिल किए जा सकने वाले पेजों की संख्या, इमेज की संख्या तक सीमित होती है, जिसे Gemini मल्टीमॉडल मॉडल स्वीकार कर सकते हैं.

हर अनुरोध के लिए ज़्यादा से ज़्यादा फ़ाइलें: 3,000 फ़ाइलें
हर फ़ाइल के लिए ज़्यादा से ज़्यादा पेज: हर फ़ाइल के लिए 1,000 पेज
हर फ़ाइल के लिए ज़्यादा से ज़्यादा साइज़: हर फ़ाइल के लिए 50 एमबी

दस्तावेज़: टोकनाइज़ेशन

PDF का टोकनाइज़ेशन

PDF को इमेज के तौर पर प्रोसेस किया जाता है. इसलिए, PDF के हर पेज को इमेज की तरह ही टोकनाइज़ किया जाता है.

इसके अलावा, PDF के लिए लगने वाली लागत, Gemini इमेज की कीमत के हिसाब से होती है. उदाहरण के लिए, अगर Gemini API कॉल में दो पेज वाली PDF शामिल की जाती है, तो आपको दो इमेज को प्रोसेस करने की इनपुट फ़ीस चुकानी होगी.

दस्तावेज़: सबसे सही तरीके

PDF का इस्तेमाल करते समय, सबसे अच्छे नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:

अगर आपके प्रॉम्प्ट में एक PDF है, तो अपने अनुरोध में टेक्स्ट प्रॉम्प्ट से पहले PDF शामिल करें.
अगर आपके पास कोई बड़ा दस्तावेज़ है, तो उसे प्रोसेस करने के लिए, कई PDF में बांटने पर विचार करें.
स्कैन की गई इमेज में मौजूद टेक्स्ट के बजाय, टेक्स्ट के तौर पर रेंडर किए गए टेक्स्ट से बनाई गई PDF का इस्तेमाल करें. इस फ़ॉर्मैट से यह पक्का होता है कि टेक्स्ट को मशीन से पढ़ा जा सकता है. इसलिए, स्कैन की गई इमेज वाली PDF के मुकाबले, मॉडल के लिए टेक्स्ट को एडिट करना, खोजना, और उसमें बदलाव करना आसान होता है. कॉन्ट्रैक्ट जैसे टेक्स्ट वाले दस्तावेज़ों के साथ काम करते समय, इस तरीके से सबसे अच्छे नतीजे मिलते हैं.

दस्तावेज़: सीमाएं

स्पेशल रीज़निंग: मॉडल, PDF में मौजूद टेक्स्ट या ऑब्जेक्ट की सटीक पहचान नहीं कर पाते. वे ऑब्जेक्ट की अनुमानित संख्या ही दिखा सकते हैं.
सटीकता: PDF दस्तावेज़ों में, हाथ से लिखे टेक्स्ट की व्याख्या करते समय मॉडल गलत जानकारी दे सकते हैं.