หน้านี้อธิบายข้อจำกัดและข้อกำหนดต่างๆ สำหรับการใช้ Live API และโมเดลของ API
ข้อจำกัดที่เกี่ยวข้องกับเซสชัน
สำหรับ Live API คำว่า เซสชัน หมายถึงการเชื่อมต่อแบบถาวรที่ระบบจะสตรีมอินพุต และเอาต์พุตอย่างต่อเนื่องผ่านการเชื่อมต่อ
หากเซสชันเกินขีดจำกัด ใดก็ตาม ต่อไปนี้ ระบบจะยกเลิกการเชื่อมต่อ อย่างไรก็ตาม Live API มีตัวเลือกบางอย่าง (ดูด้านล่าง) เพื่อ จัดการข้อจำกัดที่เกี่ยวข้องกับเซสชันเหล่านี้
หน้าต่างบริบทของเซสชัน จำกัดไว้ที่ 128,000 โทเค็น
เนื่องจากข้อจำกัดของหน้าต่างบริบทนี้ ความยาวเซสชันสูงสุดโดยประมาณจึงเป็นดังนี้
- เซสชันอินพุตเสียงเท่านั้นจำกัดไว้ที่
15 นาที - อินพุตวิดีโอ + เสียงจำกัดไว้ที่
2 นาที
- เซสชันอินพุตเสียงเท่านั้นจำกัดไว้ที่
ความยาวการเชื่อมต่อ จำกัดไว้ที่ประมาณ
10 นาที คุณจะได้รับการแจ้งเตือน การสิ้นสุดการเชื่อมต่อ ประมาณ
60 วินาที ก่อนที่การเชื่อมต่อจะสิ้นสุด
ตัวเลือกบางอย่างสำหรับการจัดการข้อจำกัดที่เกี่ยวข้องกับเซสชันมีดังนี้
บีบอัดหน้าต่างบริบทของเซสชัน เพื่อให้เซิร์ฟเวอร์รักษาระดับขนาดบริบทให้อยู่ภายในขีดจำกัดโดยอัตโนมัติ
กลับมาใช้เซสชันต่อ เพื่อป้องกันไม่ให้บริบทการสนทนาหายไประหว่างที่เครือข่ายขาดการเชื่อมต่อชั่วคราวหรือ หลังจากได้รับการแจ้งเตือน การสิ้นสุด
ดูข้อมูลเพิ่มเติมเกี่ยวกับ การจัดการเซสชัน
ขีดจำกัดอัตรา
Live API มีขีดจำกัดอัตราสำหรับทั้งเซสชันพร้อมกันต่อ โปรเจ็กต์ Firebase และโทเค็นต่อนาที (TPM)
Gemini Developer API:
- ขีดจำกัดจะแตกต่างกันไปตาม Gemini Developer API "ระดับการใช้งาน" ของโปรเจ็กต์ (ดู เอกสารประกอบเกี่ยวกับขีดจำกัดอัตรา)
Vertex AI Gemini API:
- 1,000 เซสชันพร้อมกันต่อโปรเจ็กต์ Firebase
- โทเค็น 4 ล้านรายการต่อนาที
รูปแบบเสียง
Live API รองรับรูปแบบเสียงต่อไปนี้
- รูปแบบเสียงอินพุต: Raw 16 บิต PCM ที่ 16kHz little-endian
รูปแบบเสียงเอาต์พุต: Raw 16 บิต PCM ที่ 24kHz little-endian
ประเภท MIME ที่รองรับ:
audio/x-aac,audio/flac,audio/mp3,audio/m4a,audio/mpeg,audio/mpga,audio/mp4,audio/ogg,audio/pcm,audio/wav,audio/webm
หากต้องการระบุอัตราการสุ่มตัวอย่างของเสียงอินพุต ให้ตั้งค่าประเภท MIME ของ Blob ที่มีเสียงแต่ละรายการเป็นค่า เช่น audio/pcm;rate=16000
รูปแบบวิดีโอ
Live API คาดหวังลำดับเฟรมรูปภาพแบบแยกและรองรับอินพุตเฟรมวิดีโอ ที่ 1 เฟรมต่อวินาที (FPS)
อินพุตที่แนะนำ: ความละเอียด 768x768 ดั้งเดิมที่ 1 FPS
ประเภท MIME ที่รองรับ:
video/x-flv,video/quicktime,video/mpeg,video/mpegs,video/mpg,video/mp4,video/webm,video/wmv,video/3gpp
โปรดทราบว่าข้อกำหนดนี้ทำให้ Live API ไม่เหมาะกับกรณีการใช้งาน ที่ต้องวิเคราะห์วิดีโอที่มีการเปลี่ยนแปลงอย่างรวดเร็ว เช่น การบรรยายการแข่งขันกีฬาความเร็วสูง แบบเรียลไทม์
เสียงตอบกลับ
Live API รองรับตัวเลือกเสียงตอบกลับต่อไปนี้ หากต้องการดูตัวอย่างเสียงของแต่ละตัวเลือก โปรดดู Chirp 3: HD voices
หากคุณไม่ได้ระบุเสียงตอบกลับ ระบบจะใช้ Puck เป็นค่าเริ่มต้น
Zephyr -- สดใสKore -- หนักแน่นOrus -- หนักแน่นAutonoe -- สดใสUmbriel -- สบายๆErinome -- ชัดเจนLaomedeia -- ร่าเริงSchedar -- ราบเรียบAchird -- เป็นมิตรSadachbia -- มีชีวิตชีวา
|
Puck -- ร่าเริงFenrir -- ตื่นเต้นAoede -- สดใสEnceladus -- มีลมหายใจAlgieba -- นุ่มนวลAlgenib -- แหบแห้งAchernar -- นุ่มนวลGacrux -- เป็นผู้ใหญ่Zubenelgenubi -- สบายๆSadaltager -- รอบรู้
|
Charon -- ให้ข้อมูลLeda -- สดใสCallirrhoe -- สบายๆIapetus -- ชัดเจนDespina -- นุ่มนวลRasalgethi -- ให้ข้อมูลAlnilam -- หนักแน่นPulcherrima -- ตรงไปตรงมาVindemiatrix -- อ่อนโยนSulafat -- อบอุ่น
|
ภาษา
Live API รองรับภาษาต่อไปนี้ ดูวิธีกำหนดภาษาตอบกลับ ได้ที่นี่
| ภาษา | รหัส BCP-47 | ภาษา | รหัส BCP-47 |
|---|---|---|---|
| อาหรับ (อียิปต์) | ar-EG | เยอรมัน (เยอรมนี) | de-DE |
| อังกฤษ (อเมริกัน) | en-US | สเปน (สหรัฐอเมริกา) | es-US |
| ฝรั่งเศส (ฝรั่งเศส) | fr-FR | ฮินดี (อินเดีย) | hi-IN |
| อินโดนีเซีย (อินโดนีเซีย) | id-ID | อิตาลี (อิตาลี) | it-IT |
| ญี่ปุ่น (ญี่ปุ่น) | ja-JP | เกาหลี (เกาหลี) | ko-KR |
| โปรตุเกส (บราซิล) | pt-BR | รัสเซีย (รัสเซีย) | ru-RU |
| ดัตช์ (เนเธอร์แลนด์) | nl-NL | โปแลนด์ (โปแลนด์) | pl-PL |
| ไทย (ไทย) | th-TH | ตุรกี (ตุรกี) | tr-TR |
| เวียดนาม (เวียดนาม) | vi-VN | โรมาเนีย (โรมาเนีย) | ro-RO |
| ยูเครน (ยูเครน) | uk-UA | เบงกาลี (บังคลาเทศ) | bn-BD |
| อังกฤษ (อินเดีย) | ชุดภาษาอังกฤษ (อินเดีย) และฮินดี (อินเดีย) | มราฐี (อินเดีย) | mr-IN |
| ทมิฬ (อินเดีย) | ta-IN | เตลูกู (อินเดีย) | te-IN |