หน้านี้อธิบายขีดจำกัดและข้อกำหนดต่างๆ สำหรับการใช้ Live API และโมเดลของ API
ขีดจำกัดที่เกี่ยวข้องกับเซสชัน
สำหรับ Live API เซสชัน หมายถึงการเชื่อมต่อแบบถาวรที่ระบบจะสตรีมอินพุต และเอาต์พุตอย่างต่อเนื่องผ่านการเชื่อมต่อ
หากเซสชันเกินขีดจำกัด ใดก็ตาม ต่อไปนี้ ระบบจะยกเลิกการเชื่อมต่อ อย่างไรก็ตาม Live API มีตัวเลือกบางอย่าง (ดูด้านล่าง) เพื่อ จัดการขีดจำกัดที่เกี่ยวข้องกับเซสชันเหล่านี้
หน้าต่างบริบทของเซสชัน จำกัดไว้ที่ 128,000 โทเค็น
เนื่องจากขีดจำกัดหน้าต่างบริบทนี้ ความยาวเซสชันสูงสุดโดยประมาณจึงเป็นดังนี้
- เซสชันอินพุตเสียงเท่านั้นจำกัดไว้ที่
15 นาที - อินพุตวิดีโอ + เสียงจำกัดไว้ที่
2 นาที
- เซสชันอินพุตเสียงเท่านั้นจำกัดไว้ที่
ความยาวการเชื่อมต่อ จำกัดไว้ที่ประมาณ
10 นาที คุณจะได้รับการแจ้งเตือน การสิ้นสุดการเชื่อมต่อ ประมาณ
60 วินาที ก่อนการเชื่อมต่อจะสิ้นสุด
ตัวเลือกบางอย่างสำหรับการจัดการขีดจำกัดที่เกี่ยวข้องกับเซสชันมีดังนี้
บีบอัดหน้าต่างบริบทของเซสชัน เพื่อให้เซิร์ฟเวอร์รักษาระดับขนาดบริบทให้อยู่ภายในขีดจำกัดโดยอัตโนมัติ
กลับมาใช้เซสชันต่อ เพื่อป้องกันไม่ให้บริบทการสนทนาหายไประหว่างที่เครือข่ายขาดการเชื่อมต่อชั่วคราวหรือ หลังจากได้รับการแจ้งเตือน การสิ้นสุด
ดูข้อมูลเพิ่มเติมเกี่ยวกับ การจัดการเซสชัน
ขีดจำกัดอัตรา
Live API มีขีดจำกัดอัตราสำหรับทั้งเซสชันพร้อมกันต่อ โปรเจ็กต์ Firebase และโทเค็นต่อนาที (TPM)
Gemini Developer API:
- ขีดจำกัดจะแตกต่างกันไปตาม Gemini Developer API "ระดับการใช้งาน" ของโปรเจ็กต์ (ดู เอกสารประกอบเกี่ยวกับขีดจำกัดอัตรา)
Vertex AI Gemini API:
- 1,000 เซสชันพร้อมกันต่อโปรเจ็กต์ Firebase
- 4 ล้านโทเค็นต่อนาที
รูปแบบเสียง
Live API รองรับรูปแบบเสียงต่อไปนี้
- รูปแบบเสียงอินพุต: Raw 16 บิต PCM ที่ 16kHz little-endian
รูปแบบเสียงเอาต์พุต: Raw 16 บิต PCM ที่ 24kHz little-endian
ประเภท MIME ที่รองรับ:
audio/x-aac,audio/flac,audio/mp3,audio/m4a,audio/mpeg,audio/mpga,audio/mp4,audio/ogg,audio/pcm,audio/wav,audio/webm
หากต้องการระบุอัตราการสุ่มตัวอย่างของเสียงอินพุต ให้ตั้งค่าประเภท MIME ของ Blob ที่มีเสียงแต่ละรายการเป็นค่า เช่น audio/pcm;rate=16000
รูปแบบวิดีโอ
Live API คาดหวังลำดับเฟรมรูปภาพแบบแยกและรองรับอินพุตเฟรมวิดีโอ ที่ 1 เฟรมต่อวินาที (FPS)
อินพุตที่แนะนำ: ความละเอียด 768x768 แบบเนทีฟที่ 1 FPS
ประเภท MIME ที่รองรับ:
video/x-flv,video/quicktime,video/mpeg,video/mpegs,video/mpg,video/mp4,video/webm,video/wmv,video/3gpp
โปรดทราบว่าข้อกำหนดนี้ทำให้ Live API ไม่เหมาะกับกรณีการใช้งาน ที่ต้องวิเคราะห์วิดีโอที่มีการเปลี่ยนแปลงอย่างรวดเร็ว เช่น การบรรยายการแข่งขันกีฬาความเร็วสูง แบบเรียลไทม์
เสียงตอบกลับ
Live API รองรับตัวเลือกเสียงตอบกลับต่อไปนี้ หากต้องการดูตัวอย่างเสียงของแต่ละตัวเลือก โปรดดู Chirp 3: HD voices
หากคุณไม่ได้ระบุเสียงตอบกลับ ระบบจะใช้ Puck เป็นค่าเริ่มต้น
Zephyr -- สดใสKore -- หนักแน่นOrus -- หนักแน่นAutonoe -- สดใสUmbriel -- สบายๆErinome -- ชัดเจนLaomedeia -- ร่าเริงSchedar -- ราบเรียบAchird -- เป็นมิตรSadachbia -- มีชีวิตชีวา
|
Puck -- ร่าเริงFenrir -- ตื่นเต้นAoede -- สดชื่นEnceladus -- เสียงลมหายใจAlgieba -- นุ่มนวลAlgenib -- แหบแห้งAchernar -- นุ่มนวลGacrux -- เป็นผู้ใหญ่Zubenelgenubi -- สบายๆSadaltager -- รอบรู้
|
Charon -- ให้ข้อมูลLeda -- สดใสCallirrhoe -- สบายๆIapetus -- ชัดเจนDespina -- นุ่มนวลRasalgethi -- ให้ข้อมูลAlnilam -- หนักแน่นPulcherrima -- ตรงไปตรงมาVindemiatrix -- สุภาพSulafat -- อบอุ่น
|
ภาษา
Live API รองรับภาษาต่อไปนี้ ดูวิธีกำหนดภาษาตอบกลับ ได้ที่นี่
| ภาษา | รหัส BCP-47 | ภาษา | รหัส BCP-47 |
|---|---|---|---|
| อาหรับ (อียิปต์) | ar-EG | เยอรมัน (เยอรมนี) | de-DE |
| อังกฤษ (อเมริกัน) | en-US | สเปน (สหรัฐอเมริกา) | es-US |
| ฝรั่งเศส (ฝรั่งเศส) | fr-FR | ฮินดี (อินเดีย) | hi-IN |
| อินโดนีเซีย (อินโดนีเซีย) | id-ID | อิตาลี (อิตาลี) | it-IT |
| ญี่ปุ่น (ญี่ปุ่น) | ja-JP | เกาหลี (เกาหลี) | ko-KR |
| โปรตุเกส (บราซิล) | pt-BR | รัสเซีย (รัสเซีย) | ru-RU |
| ดัตช์ (เนเธอร์แลนด์) | nl-NL | โปแลนด์ (โปแลนด์) | pl-PL |
| ไทย (ไทย) | th-TH | ตุรกี (ตุรกี) | tr-TR |
| เวียดนาม (เวียดนาม) | vi-VN | โรมาเนีย (โรมาเนีย) | ro-RO |
| ยูเครน (ยูเครน) | uk-UA | เบงกาลี (บังคลาเทศ) | bn-BD |
| อังกฤษ (อินเดีย) | ชุดภาษาอังกฤษ (อินเดีย) และฮินดี (อินเดีย) | มราฐี (อินเดีย) | mr-IN |
| ทมิฬ (อินเดีย) | ta-IN | เตลูกู (อินเดีย) | te-IN |