Gemini फ़ैमिली के मॉडल को मल्टीमोडल माना जाता है, क्योंकि ये इमेज, वीडियो, और टेक्स्ट वगैरह से मिली जानकारी को प्रोसेस कर सकते हैं. उदाहरण के लिए, Gemini मॉडल को कुकी की प्लेट की फ़ोटो भेजकर, उन कुकी की रेसिपी मांगी जा सकती है.
प्रॉम्प्ट | रिस्पॉन्स |
मुझे इन कुकी की रेसिपी दो. |
**सामग्री** - 1 कप (2 स्टिक) बिना नमक वाला मक्खन, नरम किया गया - 3/4 कप चीनी - 3/4 कप ब्राउन शुगर - 1 चम्मच . वनिला एक्स्ट्रैक्ट - 2 बड़े अंडे - 2 1/4 कप सामान्य आटा - 1 चम्मच बेकिंग सोडा - 1 चम्मच नमक ... |
Google Cloud पर Vertex AI से मिले Gemini API का इस्तेमाल करके, Gemini के मॉडल के साथ इंटरैक्ट किया जा सकता है. मोबाइल और वेब ऐप्लिकेशन के लिए, Gemini API को कॉल करने और सीधे अपने ऐप्लिकेशन से Gemini मॉडल के साथ इंटरैक्ट करने के लिए, Vertex AI in Firebase SDK टूल का इस्तेमाल किया जा सकता है.
इस पेज पर, Gemini मॉडल के बारे में यह जानकारी दी गई है:
Gemini के अलग-अलग मॉडल के लिए, इस्तेमाल के उदाहरणों की हाई-लेवल तुलना. इसमें, इन मॉडल के साथ काम करने वाले इनपुट टाइप भी शामिल हैं.
हर मॉडल की जानकारी की तुलना करना. उदाहरण के लिए, ज़्यादा से ज़्यादा इनपुट टोकन या वीडियो की ज़्यादा से ज़्यादा अवधि.
Gemini मॉडल के वर्शन के बारे में जानकारी. खास तौर पर, उनके स्टैबल, अपने-आप अपडेट होने वाले, और झलक वाले वर्शन के बारे में जानकारी.
मॉडल के उपलब्ध नामों की सूचियां, जिन्हें शुरू करने के दौरान कोड में शामिल करना है.
Gemini मॉडल के लिए इस्तेमाल की जा सकने वाली भाषाओं की सूची.
उपलब्ध मॉडल
Vertex AI in Firebase के साथ, Gemini के इनमें से किसी भी मॉडल का इस्तेमाल किया जा सकता है:
Gemini 1.5 Flash
मल्टीमोडल मॉडल, जो 1.5 Pro के जैसे इनपुट और आउटपुट टाइप के साथ काम करता है. हालांकि, इसमें 10 लाख टोकन की लंबी कॉन्टेक्स्ट विंडो होती है. Gemini 1.5 Flash को खास तौर पर, ज़्यादा संख्या में और कम लागत वाले ऐप्लिकेशन के लिए डिज़ाइन किया गया है.Gemini 1.5 Pro
मल्टीमोडल मॉडल, जो टेक्स्ट या कोड के जवाब के लिए, टेक्स्ट या चैट प्रॉम्प्ट में इमेज, ऑडियो, वीडियो, और पीडीएफ़ फ़ाइलें जोड़ने की सुविधा देता है. साथ ही, यह 20 लाख टोकन के साथ लंबे कॉन्टेक्स्ट को समझने में मदद करता है.Gemini 1.0 Pro Vision
मल्टीमोडल मॉडल, जिसे टेक्स्ट या कोड के जवाब के लिए, टेक्स्ट के साथ-साथ इमेज और वीडियो को हैंडल करने के लिए डिज़ाइन किया गया है. चैट के लिए इस्तेमाल नहीं किया जा सकता.Gemini 1.0 Pro
यह मॉडल, नैचुरल लैंग्वेज के टास्क, टेक्स्ट और कोड के साथ कई बार की जाने वाली चैट, और कोड जनरेट करने की सुविधा के लिए डिज़ाइन किया गया है.
अपने कोड में शामिल करने के लिए, मॉडल के नाम पर जाएं
हर मॉडल के लिए इस्तेमाल के उदाहरण और सुविधाएं
Gemini के हर मॉडल में अलग-अलग सुविधाएं होती हैं, ताकि अलग-अलग तरह के कामों में इनका इस्तेमाल किया जा सके. Google Cloud दस्तावेज़ में, Gemini के हर मॉडल के बारे में ज़्यादा जानें.
हर मॉडल के लिए इस्तेमाल किए जा सकने वाले इनपुट और आउटपुट
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
इनपुट टाइप | ||||
टेक्स्ट | ||||
कोड | ||||
इमेज | ||||
वीडियो (सिर्फ़ फ़्रेम) | ||||
वीडियो (फ़्रेम और ऑडियो) | ||||
ऑडियो | ||||
आउटपुट टाइप | ||||
टेक्स्ट | ||||
रिस्पॉन्स स्कीमा का इस्तेमाल करके स्ट्रक्चर्ड आउटपुट (जैसे, JSON) | ||||
कोड |
इस्तेमाल किए जा सकने वाले फ़ाइल टाइप के बारे में जानने के लिए, Vertex AI Gemini API के लिए इस्तेमाल की जा सकने वाली इनपुट फ़ाइलें और ज़रूरी शर्तें देखें.
हर मॉडल के लिए काम करने वाली सुविधाएं और सामान्य सुविधाएं
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
सिर्फ़ टेक्स्ट वाले इनपुट से टेक्स्ट जनरेट करना | |||||
मल्टीमॉडल इनपुट से टेक्स्ट जनरेट करना | |||||
रिस्पॉन्स स्कीमा का इस्तेमाल करके स्ट्रक्चर्ड आउटपुट (जैसे, JSON) | |||||
मल्टी-टर्न चैट | |||||
फ़ंक्शन कॉल करना | |||||
फ़ंक्शन को बुलाना | |||||
एक साथ कई फ़ंक्शन कॉल करना | |||||
फ़ंक्शन कॉलिंग मोड | |||||
टोकन और बिलिंग के लिए ज़रूरी वर्णों की गिनती करना | |||||
सिस्टम से जुड़े निर्देश |
हर मॉडल के बारे में ज़्यादा जानकारी
प्रॉपर्टी | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
टोकन की कुल सीमा (इनपुट और आउटपुट को मिलाकर) * | 1,048,576 टोकन | 2,097,152 टोकन | 16,384 टोकन | 32,760 टोकन |
आउटपुट टोकन की सीमा * | 8,192 टोकन | 8,192 टोकन | 2,048 टोकन | 8,192 टोकन |
हर अनुरोध के लिए इमेज की ज़्यादा से ज़्यादा संख्या | 3,000 इमेज | 3,000 इमेज | 16 इमेज | लागू नहीं |
Base64 कोड में बदली गई इमेज का ज़्यादा से ज़्यादा साइज़ | 7 एमबी | 7 एमबी | 7 एमबी | लागू नहीं |
पीडीएफ़ का ज़्यादा से ज़्यादा साइज़ | 30 एमबी | 30 एमबी | 30 एमबी | लागू नहीं |
हर अनुरोध में वीडियो फ़ाइलों की ज़्यादा से ज़्यादा संख्या | 10 वीडियो फ़ाइलें | 10 वीडियो फ़ाइलें | 1 वीडियो फ़ाइल | लागू नहीं |
वीडियो की ज़्यादा से ज़्यादा लंबाई (सिर्फ़ फ़्रेम) | ~60 मिनट का वीडियो | ~60 मिनट का वीडियो | दो मिनट | लागू नहीं |
वीडियो की ज़्यादा से ज़्यादा अवधि (फ़्रेम और ऑडियो) | ~45 मिनट का वीडियो | ~45 मिनट का वीडियो | लागू नहीं | लागू नहीं |
हर अनुरोध में ऑडियो फ़ाइलों की ज़्यादा से ज़्यादा संख्या | 1 ऑडियो फ़ाइल | 1 ऑडियो फ़ाइल | लागू नहीं | लागू नहीं |
ऑडियो की ज़्यादा से ज़्यादा अवधि | ~8.4 घंटे का ऑडियो | ~8.4 घंटे का ऑडियो | लागू नहीं | लागू नहीं |
* Gemini के सभी मॉडल के लिए, एक टोकन करीब चार वर्णों के बराबर होता है. इसलिए, 100 टोकन करीब 60 से 80 अंग्रेज़ी शब्दों के बराबर होते हैं. countTokens
का इस्तेमाल करके, अपने अनुरोधों में टोकन की कुल संख्या का पता लगाया जा सकता है.
काम करने वाले फ़ाइल टाइप, एमआईएम टाइप तय करने के तरीके, और यह पक्का करने के तरीके के बारे में जानें कि आपकी फ़ाइलें और कई मोड वाले अनुरोध, ज़रूरी शर्तों को पूरा करते हैं और Vertex AI Gemini API के लिए काम करने वाली इनपुट फ़ाइलों और ज़रूरी शर्तों में बताए गए सबसे सही तरीकों का पालन करते हैं.
मॉडल के वर्शन
Gemini मॉडल, स्टैबल, अपने-आप अपडेट होने वाले, और झलक के वर्शन में उपलब्ध हैं.
स्टेबल वर्शन को आम तौर पर उपलब्ध माना जाता है.
- स्टेबल वर्शन में, मॉडल के नाम के साथ वर्शन का तीन अंकों वाला कोई खास नंबर जोड़ा जाता है. उदाहरण के लिए,
.gemini-1.5-pro-002
- स्टेबल वर्शन में, मॉडल के नाम के साथ वर्शन का तीन अंकों वाला कोई खास नंबर जोड़ा जाता है. उदाहरण के लिए,
अपने-आप अपडेट होने वाले वर्शन, हमेशा उस मॉडल के नए स्टैबल वर्शन पर ले जाते हैं. अगर कोई नया स्टैबल वर्शन रिलीज़ किया जाता है, तो अपने-आप अपडेट होने वाला वर्शन, अपने-आप उस नए स्टैबल वर्शन पर ले जाता है.
- अपने-आप अपडेट होने वाले वर्शन में, मॉडल के नाम के साथ कोई ऐपेंडेज नहीं होता. उदाहरण के लिए,
.gemini-1.5-pro
- अपने-आप अपडेट होने वाले वर्शन में, मॉडल के नाम के साथ कोई ऐपेंडेज नहीं होता. उदाहरण के लिए,
झलक वाले वर्शन में नई सुविधाएं होती हैं और इन्हें स्टेबल नहीं माना जाता. ध्यान दें कि झलक वाले वर्शन, हमेशा उस मॉडल के सबसे नए झलक वर्शन पर ले जाते हैं. अगर झलक का कोई नया वर्शन रिलीज़ किया जाता है, तो झलक का कोई भी मौजूदा वर्शन अपने-आप उस नए वर्शन पर ले जाता है.
- झलक वाले वर्शन में, मॉडल के नाम के साथ
जोड़ा जाता है. साथ ही, मॉडल के रिलीज़ होने की शुरुआती तारीख (-preview
) भी जोड़ी जाती है. उदाहरण के लिए,-MMDD
(9 अप्रैल, 2024 को रिलीज़ किया गया).gemini-1.5-pro-preview-0409
- झलक वाले वर्शन में, मॉडल के नाम के साथ
Google Cloud दस्तावेज़ में, Gemini मॉडल के उपलब्ध वर्शन और उनके लाइफ़साइकल के बारे में ज़्यादा जानें.
मॉडल के उपलब्ध नाम
मॉडल के नाम, साफ़ तौर पर बताई गई वैल्यू होती हैं. इन्हें जनरेटिव मॉडल को शुरू करने के दौरान, अपने कोड में शामिल किया जाता है. यह Gemini API को कॉल करने के लिए ज़रूरी चरण है. अपनी भाषा के लिए, शुरू करने के उदाहरणों के लिए, शुरू करने की गाइड देखें.
Gemini 1.5 Flash मॉडल के नाम
मॉडल का नाम | जानकारी | रिलीज़ का स्टेज | रिलीज़ होने की तारीख | बंद होने की तारीख |
---|---|---|---|---|
स्टेबल वर्शन | ||||
gemini-1.5-flash-002 |
Gemini 1.5 Flash का सबसे नया और भरोसेमंद वर्शन | सामान्य रूप से उपलब्ध | 2024-09-24 | 24-09-2025 से पहले नहीं |
gemini-1.5-flash-001 |
Gemini 1.5 Flash का शुरुआती स्टैबल वर्शन | सामान्य रूप से उपलब्ध | 2024-05-24 | 24-05-2025 से पहले नहीं |
अपने-आप अपडेट होने वाला वर्शन | ||||
gemini-1.5-flash |
1.5 Flash के सबसे नए स्टेबल वर्शन पर ले जाता है. फ़िलहाल, यह gemini-1.5-flash-002 |
सामान्य रूप से उपलब्ध | 2024-09-24 | --- |
Gemini 1.5 Pro मॉडल के नाम
मॉडल का नाम | जानकारी | रिलीज़ का स्टेज | रिलीज़ होने की तारीख | बंद होने की तारीख |
---|---|---|---|---|
स्टेबल वर्शन | ||||
gemini-1.5-pro-002 |
Gemini 1.5 Pro का सबसे नया और भरोसेमंद वर्शन | सामान्य रूप से उपलब्ध | 2024-09-24 | 24-09-2025 से पहले नहीं |
gemini-1.5-pro-001 |
Gemini 1.5 Pro का शुरुआती स्टैबल वर्शन | सामान्य रूप से उपलब्ध | 2024-05-24 | 24-05-2025 से पहले नहीं |
अपने-आप अपडेट होने वाला वर्शन | ||||
gemini-1.5-pro |
1.5 Pro के सबसे नए स्टेबल वर्शन पर ले जाता है (फ़िलहाल, gemini-1.5-pro-002 |
सामान्य रूप से उपलब्ध | 2024-09-24 | --- |
Gemini 1.0 Pro Vision मॉडल के नाम
मॉडल का नाम | जानकारी | रिलीज़ का स्टेज | रिलीज़ होने की तारीख | बंद होने की तारीख |
---|---|---|---|---|
स्टेबल वर्शन | ||||
gemini-1.0-pro-vision-001 |
Gemini 1.0 Pro Vision का सबसे नया और स्टेबल वर्शन | सामान्य रूप से उपलब्ध | 2024-02-15 | 15-02-2025 से पहले नहीं |
अपने-आप अपडेट होने वाला वर्शन | ||||
gemini-1.0-pro-vision |
1.5 Pro Vision के सबसे नए स्टेबल वर्शन पर ले जाता है (फ़िलहाल gemini-1.5-pro-vision-001 |
सामान्य रूप से उपलब्ध | 2024-01-04 | --- |
Gemini 1.0 Pro मॉडल के नाम
मॉडल का नाम | जानकारी | रिलीज़ का स्टेज | रिलीज़ होने की तारीख | बंद होने की तारीख |
---|---|---|---|---|
स्टेबल वर्शन | ||||
gemini-1.0-pro-002 |
Gemini 1.0 Pro का सबसे नया और स्टेबल वर्शन | सामान्य रूप से उपलब्ध | 2024-04-09 | 09-04-2025 से पहले नहीं |
gemini-1.0-pro-001 |
Gemini 1.0 Pro का स्टेबल वर्शन | सामान्य रूप से उपलब्ध | 2024-02-15 | 15-02-2025 से पहले नहीं |
अपने-आप अपडेट होने वाला वर्शन | ||||
gemini-1.0-pro |
1.0 Pro के सबसे नए स्टेबल वर्शन पर ले जाता है (फ़िलहाल, gemini-1.0-pro-002 |
सामान्य रूप से उपलब्ध | 2024-02-15 | --- |
यह सुविधा इन भाषाओं में काम करती है
Gemini के सभी मॉडल, इन भाषाओं को समझ सकते हैं और इनमें जवाब दे सकते हैं:
ऐरेबिक (ar), बांग्ला (bn), बुल्गारियन (bg), चाइनीज़ सिम्प्लिफ़ाइड और ट्रेडिशनल (zh), क्रोएशियन (hr), चेक (cs), डेनिश (da), डच (nl), अंग्रेज़ी (en), एस्टोनियन (et), फ़िनिश (fi), फ़्रेंच (fr), जर्मन (de), ग्रीक (el), हिब्रू (iw), हिन्दी (hi), हंगेरियन (hu), इंडोनेशियन (id), इटैलियन (it), जैपनीज़ (ja), कोरियन (ko), लातवियन (lv), लिथुआनियन (lt), नॉर्वेजियन (no), पोलिश (pl), पॉर्चगीज़ (pt), रोमेनियन (ro), रशियन (ru), सर्बियन (sr), स्लोवाक (sk), स्लोवेनियन (sl), स्पैनिश (es), स्वाहिली (sw), स्वीडिश (sv), थाई (th), टर्किश (tr), यूक्रेनियन (uk), वियतनामीज़ (vi)
Gemini 1.5 Pro और Gemini 1.5 Flash के मॉडल, इन अन्य भाषाओं को समझ सकते हैं और इनमें जवाब दे सकते हैं:
अफ़्रीकान्स (af), अम्हारिक (am), असमिया (as), अज़ेरी (az), बेलारूसी (be), बोस्नियाई (bs), कैटलन (ca), सिबुआनो (ceb), कोर्सिकन (co), वेल्श (cy), दीवेही (dv), एस्पेरांटो (eo), बास्क (eu), फ़ारसी (fa), फ़िलिपिनो (तागालोग) (fil), फ़्रिसियन (fy), आयरिश (ga), स्कॉटिश गेलिक (gd), गैलिशियन (gl), गुजराती (gu), हौसा (ha), हवाईयन (haw), हमोंग (hmn), हैतीयन क्रेओल (ht), अर्मेनियाई (hy), इग्बो (ig), आइसलैंडिक (is), ज्वानेस (jv), जॉर्जियन (ka), कज़ाख (kk), खमेर (km), कन्नड़ (kn), क्रियो (kri), कुर्दीश (ku), किर्गिज़ (ky), लैटिन (la), लक्ज़मबर्गिश (lb), लाओ (lo), मलागासी (mg), माओरी (mi), मैसेडोनियन (mk), मलयालम (ml), मंगोलियन (mn), मेइतेइलोन (मणिपुरी) (mni-Mtei), मराठी (mr), मलय (ms), माल्टीज़ (mt), म्यांमार (बर्मीज़) (my), नेपाली (ne), न्यान्या (चिचेवा) (ny), ओडिया (ओडिया) (or), पंजाबी (pa), पश्तो (ps), सिंधी (sd), सिंघल (सिंघल) (si), समोआन (sm), शोना (sn), सोमाली (so), अल्बानियाई (sq), सेसोथो (st), सुंडानी (su), तमिल (ta), तेलुगु (te), ताजिक (tg), उइघुर (ug), उर्दू (ur), उज़्बेक (uz), ज़ोसा (xh), येहुदी (yi), योरुबा (yo), ज़ुलु (zu)
अगले चरण
Gemini API की सुविधाएं आज़माएं
- कई बार बातचीत करने की सुविधा (चैट) बनाएं.
- सिर्फ़ टेक्स्ट वाले प्रॉम्प्ट से टेक्स्ट जनरेट करें.
- मल्टीमोडल प्रॉम्प्ट (जैसे, टेक्स्ट, इमेज, PDF, वीडियो, और ऑडियो) से टेक्स्ट जनरेट करें.
- टेक्स्ट और मल्टीमोडल प्रॉम्प्ट, दोनों से स्ट्रक्चर्ड आउटपुट (जैसे, JSON) जनरेट करें.
- जनरेटिव मॉडल को बाहरी सिस्टम और जानकारी से कनेक्ट करने के लिए, फ़ंक्शन कॉल का इस्तेमाल करें.