حدود ومواصفات Live API


تصف هذه الصفحة الحدود والمواصفات المختلفة لاستخدام Live API ونماذجه.

الحدود القصوى المتعلقة بالجلسة

بالنسبة إلى Live API، تشير الجلسة إلى اتصال مستمر يتم فيه بث الإدخال والإخراج بشكل مستمر عبر اتصال.

إذا تجاوزت الجلسة أيًا من الحدود القصوى التالية، يتم إنهاء الاتصال. ومع ذلك، يوفّر Live API بعض الخيارات (الموضّحة أدناه) للتعامل مع هذه الحدود القصوى المتعلقة بالجلسة.

  • تقتصر قدرة استيعاب الجلسة على 128 ألف رمز مميز.

    بسبب هذا الحدّ الأقصى لقدرة الاستيعاب، إليك الحد الأقصى التقريبي لمدد الجلسات استنادًا إلى طرق الإدخال:

    • تقتصر الجلسات التي يتم فيها إدخال الصوت فقط على 15 دقيقة.
    • تقتصر الجلسات التي يتم فيها إدخال الفيديو والصوت على دقيقتَين.
  • يقتصرطول الاتصال على 10 دقائق تقريبًا.

    ستتلقّى إشعارًا بالانقطاع قبل 60 ثانية تقريبًا من انتهاء الاتصال.

في ما يلي بعض الخيارات للتعامل مع الحدود القصوى المتعلقة بالجلسة:

مزيد من المعلومات حول إدارة الجلسات.

الحدود القصوى لمعدّل الاستخدام

يفرض Live API حدودًا قصوى لمعدّل الاستخدام لكل من الجلسات المتزامنة لكل مشروع على Firebase والرموز المميزة في الدقيقة.

  • Gemini Developer API:

  • Vertex AI Gemini API:

    • 1,000 جلسة متزامنة لكل مشروع على Firebase
    • 4 ملايين رمز مميز في الدقيقة

تنسيقات الصوت

يتوافق Live API مع تنسيقات الصوت التالية:

  • تنسيق إدخال الصوت: صوت PCM غير مضغوط بـ 16 بت بمعدّل 16 كيلوهرتز
  • تنسيق إخراج الصوت: صوت PCM غير مضغوط بـ 16 بت بمعدّل 24 كيلوهرتز

  • أنواع MIME المتوافقة: audio/x-aac، audio/flac، audio/mp3، audio/m4a، audio/mpeg، audio/mpga، audio/mp4، audio/ogg، audio/pcm، audio/wav، audio/webm

لنقل معدّل عيّنات إدخال الصوت، اضبط نوع MIME لكل Blob يحتوي على صوت على قيمة مثل audio/pcm;rate=16000.

تنسيقات الفيديو

يتوقّع Live API تسلسلاً من إطارات الصور المنفصلة ويتوافق مع إدخال إطارات الفيديو بمعدّل إطار واحد في الثانية.

  • الإدخال المقترَح: دقة عرض أصلية تبلغ 768 × 768 بمعدّل إطار واحد في الثانية.

  • أنواع MIME المتوافقة: video/x-flv، video/quicktime، video/mpeg، video/mpegs، video/mpg، video/mp4، video/webm، video/wmv، video/3gpp

يُرجى العِلم أنّ هذه المواصفات تجعل Live API غير مناسب لحالات الاستخدام التي تتطلّب تحليل فيديو سريع التغيير، مثل تحليل اللقطات في الألعاب الرياضية السريعة.

أصوات الردود

يتوافق Live API مع خيارات صوت الردود التالية. للاطّلاع على عروض توضيحية حول صوت كل خيار، يُرجى الانتقال إلى Chirp 3: HD voices.

إذا لم تحدّد صوت رد، يكون الصوت التلقائي هو Puck.

تعرّف على كيفية تحديد صوت الرد.

Zephyr -- Bright
Kore -- Firm
Orus -- Firm
Autonoe -- Bright
Umbriel -- Easy-going
Erinome -- Clear
Laomedeia -- Upbeat
Schedar -- Even
Achird -- Friendly
Sadachbia -- Lively
Puck -- Upbeat
Fenrir -- Excitable
Aoede -- Breezy
Enceladus -- Breathy
Algieba -- Smooth
Algenib -- Gravelly
Achernar -- Soft
Gacrux -- Mature
Zubenelgenubi -- Casual
Sadaltager -- Knowledgeable
Charon -- Informative
Leda -- Youthful
Callirrhoe -- Easy-going
Iapetus -- Clear
Despina -- Smooth
Rasalgethi -- Informative
Alnilam -- Firm
Pulcherrima -- Forward
Vindemiatrix -- Gentle
Sulafat -- Warm

اللغات

يتوافق Live API مع اللغات التالية. تعرّف على كيفية التأثير في لغة الرد.

اللغة رمز BCP-47 اللغة رمز BCP-47
العربية (المصرية) ar-EG الألمانية (ألمانيا) de-DE
الإنجليزية (الولايات المتحدة) en-US الإسبانية (الولايات المتحدة) es-US
الفرنسية (فرنسا) fr-FR الهندية (الهند) hi-IN
الإندونيسية (إندونيسيا) id-ID الإيطالية (إيطاليا) it-IT
اليابانية (اليابان) ja-JP الكورية (كوريا) ko-KR
البرتغالية (البرازيل) pt-BR الروسية (روسيا) ru-RU
الهولندية (هولندا) nl-NL البولندية (بولندا) pl-PL
التايلاندية (تايلاند) th-TH التركية (تركيا) tr-TR
الفيتنامية (فيتنام) vi-VN الرومانية (رومانيا) ro-RO
الأوكرانية (أوكرانيا) uk-UA البنغالية‬ (بنغلاديش) bn-BD
الإنجليزية (الهند) حزمة en-IN وhi-IN الماراثية (الهند) mr-IN
التاميلية‬ (الهند) ta-IN التيلوغوية (الهند) te-IN