محدودیت‌ها و مشخصات رابط برنامه‌نویسی کاربردی زنده


این صفحه محدودیت‌ها و مشخصات مختلف استفاده از Live API و مدل‌های آن را شرح می‌دهد.

محدودیت‌های مربوط به جلسه

برای Live API ، یک جلسه به یک اتصال پایدار اشاره دارد که در آن ورودی و خروجی به طور مداوم از طریق همان اتصال پخش می‌شوند.

اگر جلسه از هر یک از محدودیت‌های زیر فراتر رود، اتصال خاتمه می‌یابد.

  • مدت زمان اتصال به حدود 10 دقیقه محدود شده است.

  • طول جلسه به روش‌های ورودی بستگی دارد:

    • جلسات ورودی فقط صوتی به ۱۵ دقیقه محدود می‌شوند.
    • ورودی ویدیو + صدا به ۲ دقیقه محدود می‌شود.
  • پنجره‌ی زمینه‌ی جلسه به ۱۲۸ هزار توکن محدود شده است.

محدودیت‌های نرخ

Live API برای هر دو جلسه همزمان در هر پروژه Firebase و همچنین توکن در هر دقیقه (TPM) محدودیت‌های سرعت دارد.

  • رابط برنامه‌نویسی کاربردی توسعه‌دهندگان جمینی :

  • API مربوط به Vertex AI Gemini :

    • ۵۰۰۰ جلسه همزمان در هر پروژه Firebase
    • ۴ میلیون توکن در دقیقه

فرمت‌های صوتی

Live API از فرمت‌های صوتی زیر پشتیبانی می‌کند:

  • فرمت صدای ورودی: صدای خام PCM با نرخ ۱۶ بیت و فرکانس ۱۶ کیلوهرتز (little-endian)
  • فرمت صدای خروجی: صدای خام PCM با نرخ 16 بیت و فرکانس 24 کیلوهرتز (little-endian)

برای انتقال نرخ نمونه‌برداری صدای ورودی، نوع MIME هر Blob حاوی صدا را روی مقداری مانند audio/pcm;rate=16000 تنظیم کنید.

فرمت‌های ویدیویی

Live API انتظار دنباله‌ای از فریم‌های تصویر گسسته را دارد و از ورودی فریم‌های ویدیویی با سرعت ۱ فریم در ثانیه (FPS) پشتیبانی می‌کند. برای بهترین نتیجه، از وضوح تصویر اصلی ۷۶۸x۷۶۸ با سرعت ۱ فریم در ثانیه استفاده کنید.

توجه داشته باشید که این مشخصات، Live API را برای مواردی که نیاز به تجزیه و تحلیل ویدیوهای با تغییرات سریع دارند، مانند پخش زنده در ورزش‌های پرسرعت، نامناسب می‌کند.

صداهای پاسخ

Live API از گزینه‌های صوتی پاسخ زیر پشتیبانی می‌کند. برای نمایش دموهای هر صدا، به Chirp 3: HD voices مراجعه کنید.

اگر صدای پاسخ را مشخص نکنید، صدای پیش‌فرض Puck است.

یاد بگیرید که چگونه صدای پاسخ را مشخص کنید .

Zephyr -- روشن
Kore -- شرکت
Orus -- شرکت
Autonoe -- روشن
Umbriel -- آسان‌گیر
Erinome -- پاک
Laomedeia -- خوش‌بین
Schedar -- حتی
Achird -- دوستانه
Sadachbia -- سرزنده
Puck -- خوش‌بین
Fenrir -- هیجان‌انگیز
Aoede -- نسیم ملایم
Enceladus -- نفس‌گیر
Algieba -- صاف
Algenib -- شنی
Achernar -- نرم
Gacrux -- بالغ
Zubenelgenubi -- غیررسمی
Sadaltager - آگاه
Charon -- آموزنده
Leda -- جوان
Callirrhoe -- آسان‌گیر
Iapetus -- شفاف
Despina -- صاف
Rasalgethi -- آموزنده
Alnilam -- شرکت
Pulcherrima -- مهاجم
Vindemiatrix -- ملایم
Sulafat -- گرم

زبان‌ها

Live API از زبان‌های زیر پشتیبانی می‌کند. یاد بگیرید که چگونه زبان پاسخ را تغییر دهید .

زبان کد BCP-47 زبان کد BCP-47
عربی (مصری) ar-EG آلمانی (آلمان) د-DE
انگلیسی (آمریکایی) انگلیسی-آمریکایی اسپانیایی (آمریکایی) es-US
فرانسوی (فرانسه) fr-FR هندی (هند) سلام-ورودی
اندونزیایی (اندونزیایی) شناسه-شناسه ایتالیایی (ایتالیا) فناوری اطلاعات
ژاپنی (ژاپن) جا-جی پی کره‌ای (کره) کو-کی‌آر
پرتغالی (برزیل) پی تی-بی آر روسی (روسیه) ru-RU
هلندی (هلند) nl-NL لهستانی (لهستان) پی ال-پی ال
تایلندی (تایلند) ام-ام ترکی (ترکیه) تر-تی‌آر
ویتنامی (ویتنام) vi-VN رومانیایی (رومانیایی) ro-RO
اوکراینی (اوکراین) انگلستان-آمریکا بنگالی (بنگلادش) بی ان-بی دی
انگلیسی (هند) بسته en-IN و hi-IN مراتی (هند) آقای-IN
تامیل (هند) تا-این تلوگو (هند) te-IN