หน้านี้อธิบายขีดจำกัดและข้อกำหนดต่างๆ สำหรับการใช้ Live API และโมเดลของ API
ขีดจำกัดที่เกี่ยวข้องกับเซสชัน
สำหรับ Live API นั้น เซสชัน หมายถึงการเชื่อมต่อแบบถาวรที่ระบบจะสตรีมอินพุต และเอาต์พุตอย่างต่อเนื่องผ่านการเชื่อมต่อเดียวกัน
หากเซสชันเกินขีดจำกัด ใดก็ตาม ต่อไปนี้ ระบบจะยกเลิกการเชื่อมต่อ
ระยะเวลาการเชื่อมต่อ จำกัดไว้ที่ประมาณ 10 นาที
ระยะเวลาเซสชัน จะขึ้นอยู่กับรูปแบบอินพุต
- เซสชันอินพุตแบบเสียงเท่านั้นจำกัดไว้ที่ 15 นาที
- อินพุตวิดีโอ + เสียงจำกัดไว้ที่ 2 นาที
หน้าต่างบริบทของเซสชัน จำกัดไว้ที่ 128,000 โทเค็น
คุณจะได้รับการแจ้งเตือน การสิ้นสุดก่อนที่การเชื่อมต่อจะสิ้นสุดลง ซึ่งจะช่วยให้คุณดำเนินการเพิ่มเติมได้
Firebase AI Logicดูข้อมูลเพิ่มเติมเกี่ยวกับ การจัดการเซสชัน
ขีดจำกัดอัตรา
Live API มีขีดจำกัดอัตราสำหรับทั้งเซสชันพร้อมกันต่อ โปรเจ็กต์ Firebase และโทเค็นต่อนาที (TPM)
Gemini Developer API:
- ขีดจำกัดจะแตกต่างกันไปตาม Gemini Developer API "ระดับการใช้งาน" ของโปรเจ็กต์ (ดู เอกสารประกอบเกี่ยวกับขีดจำกัดอัตรา)
Vertex AI Gemini API:
- 1,000 เซสชันพร้อมกันต่อโปรเจ็กต์ Firebase
- 4 ล้านโทเค็นต่อนาที
รูปแบบเสียง
Live API รองรับรูปแบบเสียงต่อไปนี้
- รูปแบบเสียงอินพุต: เสียง PCM แบบดิบ 16 บิตที่ 16 kHz แบบ Little-Endian
รูปแบบเสียงเอาต์พุต: เสียง PCM แบบดิบ 16 บิตที่ 24 kHz แบบ Little-Endian
ประเภท MIME ที่รองรับ:
audio/x-aac,audio/flac,audio/mp3,audio/m4a,audio/mpeg,audio/mpga,audio/mp4,audio/ogg,audio/pcm,audio/wav,audio/webm
หากต้องการระบุอัตราการสุ่มตัวอย่างของเสียงอินพุต ให้ตั้งค่าประเภท MIME ของ Blob ที่มีเสียงแต่ละรายการเป็นค่า เช่น audio/pcm;rate=16000
รูปแบบวิดีโอ
Live API คาดหวังลำดับเฟรมรูปภาพแบบแยกและรองรับอินพุตเฟรมวิดีโอ ที่ 1 เฟรมต่อวินาที (FPS)
อินพุตที่แนะนำ: ความละเอียด 768x768 แบบเนทีฟที่ 1 FPS
ประเภท MIME ที่รองรับ:
video/x-flv,video/quicktime,video/mpeg,video/mpegs,video/mpg,video/mp4,video/webm,video/wmv,video/3gpp
โปรดทราบว่าข้อกำหนดนี้ทำให้ Live API ไม่เหมาะกับกรณีการใช้งาน ที่ต้องวิเคราะห์วิดีโอที่มีการเปลี่ยนแปลงอย่างรวดเร็ว เช่น การบรรยายการแข่งขันกีฬาความเร็วสูง แบบเรียลไทม์
เสียงตอบกลับ
Live API รองรับตัวเลือกเสียงตอบกลับต่อไปนี้ หากต้องการดูตัวอย่างเสียงของแต่ละตัวเลือก โปรดดู Chirp 3: HD voices
หากคุณไม่ได้ระบุเสียงตอบกลับ ระบบจะใช้เสียง Puck เป็นค่าเริ่มต้น
Zephyr -- สดใสKore -- หนักแน่นOrus -- หนักแน่นAutonoe -- สดใสUmbriel -- สบายๆErinome -- ชัดเจนLaomedeia -- ร่าเริงSchedar -- ราบเรียบAchird -- เป็นมิตรSadachbia -- มีชีวิตชีวา
|
Puck -- ร่าเริงFenrir -- ตื่นเต้นAoede -- สดใสEnceladus -- เสียงลมหายใจAlgieba -- นุ่มนวลAlgenib -- แหบแห้งAchernar -- นุ่มนวลGacrux -- สุขุมZubenelgenubi -- สบายๆSadaltager -- รอบรู้
|
Charon -- ให้ข้อมูลLeda -- สดใสCallirrhoe -- สบายๆIapetus -- ชัดเจนDespina -- นุ่มนวลRasalgethi -- ให้ข้อมูลAlnilam -- หนักแน่นPulcherrima -- ตรงไปตรงมาVindemiatrix -- อ่อนโยนSulafat -- อบอุ่น
|
ภาษา
Live API รองรับภาษาต่อไปนี้ ดูวิธีกำหนดภาษาตอบกลับ ได้ที่นี่
| ภาษา | รหัส BCP-47 | ภาษา | รหัส BCP-47 |
|---|---|---|---|
| อาหรับ (อียิปต์) | ar-EG | เยอรมัน (เยอรมนี) | de-DE |
| อังกฤษ (อเมริกัน) | en-US | สเปน (สหรัฐอเมริกา) | es-US |
| ฝรั่งเศส (ฝรั่งเศส) | fr-FR | ฮินดี (อินเดีย) | hi-IN |
| อินโดนีเซีย (อินโดนีเซีย) | id-ID | อิตาลี (อิตาลี) | it-IT |
| ญี่ปุ่น (ญี่ปุ่น) | ja-JP | เกาหลี (เกาหลี) | ko-KR |
| โปรตุเกส (บราซิล) | pt-BR | รัสเซีย (รัสเซีย) | ru-RU |
| ดัตช์ (เนเธอร์แลนด์) | nl-NL | โปแลนด์ (โปแลนด์) | pl-PL |
| ไทย (ไทย) | th-TH | ตุรกี (ตุรกี) | tr-TR |
| เวียดนาม (เวียดนาม) | vi-VN | โรมาเนีย (โรมาเนีย) | ro-RO |
| ยูเครน (ยูเครน) | uk-UA | เบงกาลี (บังคลาเทศ) | bn-BD |
| อังกฤษ (อินเดีย) | ชุดภาษาอังกฤษ (อินเดีย) และฮินดี (อินเดีย) | มราฐี (อินเดีย) | mr-IN |
| ทมิฬ (อินเดีย) | ta-IN | เตลูกู (อินเดีย) | te-IN |