इस पेज पर, Live API और इसके मॉडल इस्तेमाल करने से जुड़ी अलग-अलग सीमाओं और खास बातों के बारे में बताया गया है.
सेशन से जुड़ी सीमाएं
Live API के लिए, सेशन का मतलब एक ऐसे कनेक्शन से है जो लगातार बना रहता है. इसमें इनपुट और आउटपुट, एक ही कनेक्शन पर लगातार स्ट्रीम किए जाते हैं.
अगर सेशन, यहां दी गई किसी भी सीमा से ज़्यादा होता है, तो कनेक्शन बंद कर दिया जाता है.
कनेक्शन की अवधि करीब 10 मिनट तक सीमित होती है.
सेशन की अवधि, इनपुट के तरीकों पर निर्भर करती है:
- सिर्फ़ ऑडियो वाले इनपुट सेशन 15 मिनट तक ही किए जा सकते हैं.
- वीडियो और ऑडियो इनपुट की अवधि दो मिनट से ज़्यादा नहीं होनी चाहिए.
सेशन कॉन्टेक्स्ट विंडो में ज़्यादा से ज़्यादा 1,28,000 टोकन इस्तेमाल किए जा सकते हैं.
तय सीमाएं
Live API में, हर Firebase प्रोजेक्ट के लिए एक साथ चल रहे सेशन और हर मिनट के टोकन (टीपीएम) की दर की सीमाएं होती हैं.
Gemini Developer API:
- सीमाएं, आपके प्रोजेक्ट के Gemini Developer API"इस्तेमाल के टियर" के हिसाब से अलग-अलग होती हैं. इसके बारे में जानने के लिए, दर की सीमाओं से जुड़ा दस्तावेज़ देखें
Vertex AI Gemini API:
- हर Firebase प्रोजेक्ट के लिए, एक साथ 1,000 सेशन
- हर मिनट 40 लाख टोकन
ऑडियो फ़ॉर्मैट
Live API फ़ंक्शन इन ऑडियो फ़ॉर्मैट के साथ काम करता है:
- इनपुट ऑडियो फ़ॉर्मैट: रॉ 16 बिट पीसीएम ऑडियो, 16 किलोहर्ट्ज़ लिटिल-एंडियन पर
आउटपुट ऑडियो फ़ॉर्मैट: रॉ 16 बिट पीसीएम ऑडियो, 24 किलोहर्ट्ज़ लिटिल-एंडियन पर
इस्तेमाल किए जा सकने वाले MIME टाइप:
audio/x-aac,audio/flac,audio/mp3,audio/m4a,audio/mpeg,audio/mpga,audio/mp4,audio/ogg,audio/pcm,audio/wav,audio/webm
इनपुट ऑडियो का सैंपल रेट बताने के लिए, ऑडियो वाले हर Blob का MIME टाइप, audio/pcm;rate=16000 जैसी वैल्यू पर सेट करें.
वीडियो फ़ॉर्मैट
Live API को अलग-अलग इमेज फ़्रेम के क्रम की ज़रूरत होती है. साथ ही, यह एक फ़्रेम प्रति सेकंड (एफ़पीएस) पर वीडियो फ़्रेम के इनपुट को सपोर्ट करता है.
सुझाया गया इनपुट: नेटिव 768x768 रिज़ॉल्यूशन पर 1 एफ़पीएस.
इस्तेमाल किए जा सकने वाले MIME टाइप:
video/x-flv,video/quicktime,video/mpeg,video/mpegs,video/mpg,video/mp4,video/webm,video/wmv,video/3gpp
ध्यान दें कि इस स्पेसिफ़िकेशन की वजह से, Live API का इस्तेमाल उन मामलों में नहीं किया जा सकता जिनमें तेज़ी से बदलते वीडियो का विश्लेषण करना ज़रूरी होता है. जैसे, तेज़ गति वाले खेलों में हर पल की जानकारी देना.
जवाब देने के लिए आवाज़ें
Live API में, जवाब देने के लिए आवाज़ के ये विकल्प उपलब्ध हैं. हर आवाज़ कैसी लगती है, इसके डेमो देखने के लिए Chirp 3: एचडी क्वालिटी वाली आवाज़ें पर जाएं.
अगर आपने जवाब देने के लिए आवाज़ नहीं चुनी है, तो डिफ़ॉल्ट रूप से Puck का इस्तेमाल किया जाएगा.
जवाब देने के लिए आवाज़ सेट करने का तरीका जानें.
Zephyr -- ब्राइटKore -- फ़र्मOrus -- फ़र्मAutonoe -- ब्राइटUmbriel -- ईज़ी-गोइंगErinome -- क्लियरLaomedeia -- अपबीटSchedar -- इवनAchird -- फ़्रेंडलीSadachbia -- लाइवली
|
Puck -- अपबीटFenrir -- उत्साह से भरीAoede -- हल्की-फुल्कीEnceladus -- धीमीAlgieba -- शांतAlgenib -- भारीAchernar -- नरमGacrux -- मैच्योरZubenelgenubi -- कैज़ुअलSadaltager -- जानकारी देने वाली
|
Charon -- जानकारी देने वालाLeda -- युवाओं के लिएCallirrhoe -- आसानIapetus -- स्पष्टDespina -- स्मूदRasalgethi -- जानकारी देने वालाAlnilam -- सटीकPulcherrima -- आगे बढ़ने वालाVindemiatrix -- सौम्यSulafat -- दिल से
|
भाषाएं
Live API में इन भाषाओं का इस्तेमाल किया जा सकता है. जवाब की भाषा को अपनी पसंद के मुताबिक बनाने का तरीका जानें.
| भाषा | BCP-47 कोड | भाषा | BCP-47 कोड |
|---|---|---|---|
| ऐरेबिक (मिस्र) | ar-EG | जर्मन (जर्मनी) | de-DE |
| अंग्रेज़ी (यूएस) | en-US | स्पेनिश (यूएस) | es-US |
| फ़्रांसीसी (फ़्रांस) | fr-FR | हिन्दी (भारत) | hi-IN |
| इंडोनेशियन (इंडोनेशिया) | id-ID | इतालवी (इटली) | it-IT |
| जैपनीज़ (जापान) | ja-JP | कोरियन (कोरिया) | ko-KR |
| पॉर्चुगीज़ (ब्राज़ील) | pt-BR | रूसी (रूस) | ru-RU |
| डच (नीदरलैंड्स) | nl-NL | पोलिश (पोलैंड) | pl-PL |
| थाई (थाईलैंड) | th-TH | टर्किश (तुर्की) | tr-TR |
| वियतनामीज़ (वियतनाम) | vi-VN | रोमेनियन (रोमानिया) | ro-RO |
| यूक्रेनियन (यूक्रेन) | uk-UA | बांग्ला (बांग्लादेश) | bn-BD |
| अंग्रेज़ी (भारत) | en-IN और hi-IN बंडल | मराठी (भारत) | mr-IN |
| तमिल (भारत) | ta-IN | तेलुगु (भारत) | te-IN |