ملفات الإدخال والمتطلبات المتوافقة

عند استدعاء Gemini API من تطبيقك باستخدام Firebase AI Logic SDK، يمكنك مطالبة نموذج Gemini بإنشاء نص استنادًا إلى إدخال بتنسيقات متعدّدة، مثل الصور والفيديوهات والمحتوى الصوتي والمستندات (مثل ملفات PDF).

عليك استخدام أنواع الملفات المتوافقة وتحديد نوع MIME متوافق والتأكّد من أنّ ملفاتك وطلباتك بتنسيقات متعدّدة تستوفي المتطلبات وتتّبع أفضل الممارسات.

تختص هذه الصفحة باستخدام GenerativeModel وتصف ما يلي:

خيارات توفير الملفات في الطلبات بتنسيقات متعدّدة

اختَر مقدّم خدمة Gemini API لعرض المحتوى الخاص بمقدّم الخدمة على هذه الصفحة

في كل طلب بتنسيقات متعدّدة، يجب دائمًا توفير ما يلي:

يتم تحديد حجم الملفات وعددها التي يمكنك توفيرها في الطلب حسب نوع ملف الإدخال وكيفية توفير الملف والنموذج المستخدَم (للحصول على التفاصيل، اطّلِع على قسم كل نوع من أنواع ملفات الإدخال في هذه الصفحة).

الخيار 1: توفير الملف كبيانات مضمّنة

يُرجى مراعاة ما يلي بشأن الملفات المقدَّمة كبيانات مضمّنة:

  • لا يمكن إرسال سوى الملفات الصغيرة كبيانات مضمّنة لأنّ الحد الأقصى لإجمالي حجم الطلب هو 20 ميغابايت.

  • يتم ترميز الملف إلى base64 أثناء النقل (ما يزيد من حجم الملف).

للاطّلاع على مثال يوضّح كيفية تضمين ملف كبيانات مضمّنة، يُرجى الاطّلاع على مقالة إنشاء نص من إدخال نصي وملف (بتنسيقات متعدّدة). يُرجى العِلم أنّ حِزم تطوير البرامج (SDK) لمنصتَي Android وApple يمكنها التعامل مع الصور المضمّنة في الطلبات بدون الحاجة إلى تحديد نوع MIME. مزيد من المعلومات

الخيار 2: توفير الملف باستخدام عنوان URL

في ما يلي أنواع عناوين URL المقبولة عند استخدام Gemini Developer API

  • عنوان URL لفيديو على YouTube: يجب أن يكون الفيديو على YouTube علنيًا أو غير مُدرَج.

    يمكنك تحديد عنوان URL واحد لفيديو على YouTube لكل طلب.



الصور: المتطلبات وأفضل الممارسات والقيود

الصور: المتطلبات

في هذا القسم، يمكنك التعرّف على أنواع MIME المتوافقة والحدود المفروضة على كل طلب للصور.

أنواع MIME المتوافقة

تتيح نماذج Gemini بتنسيقات متعدّدة أنواع MIME التالية للصور:

  • PNG - image/png
  • JPEG - image/jpeg
  • WebP - image/webp

الحدود المفروضة على كل طلب

ليس هناك حدّ معيّن لعدد وحدات البكسل في الصورة. ومع ذلك، يتم تصغير الصور الأكبر حجمًا وإضافة مساحة فارغة إليها لتناسب دقة قصوى تبلغ 3072 × 3072 مع الحفاظ على نسبة العرض إلى الارتفاع الأصلية.

الحد الأقصى لعدد الملفات لكل طلب: 3,000 ملف صورة

الصور: إنشاء الرموز المميّزة

في ما يلي كيفية حساب الرموز المميّزة للصور:

  • إذا كان كلا بُعدَي الصورة أقل من 384 بكسل أو يساويها، يتم استخدام 258 رمزًا مميّزًا.
  • إذا كان أحد بُعدَي الصورة أكبر من 384 بكسل، يتم قص الصورة إلى مربّعات. يكون حجم كل مربّع تلقائيًا هو البُعد الأصغر (العرض أو الارتفاع) مقسومًا على 1.5. إذا لزم الأمر، يتم تعديل كل مربّع بحيث لا يكون أصغر من 256 بكسل ولا أكبر من 768 بكسل. بعد ذلك، يتم تغيير حجم كل مربّع إلى 768 × 768 ويستخدم 258 رمزًا مميّزًا.

الصور: أفضل الممارسات

عند استخدام الصور، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على أفضل النتائج:

  • إذا أردت رصد نص في صورة، استخدِم طلبات تتضمّن صورة واحدة للحصول على نتائج أفضل من الطلبات التي تتضمّن صورًا متعدّدة.
  • إذا كان طلبك يحتوي على صورة واحدة، ضَع الصورة قبل الطلب النصي في طلبك.
  • إذا كان طلبك يحتوي على صور متعدّدة وأردت الإشارة إليها لاحقًا في طلبك أو أن يشير إليها النموذج في ردّه، قد يكون من المفيد منح كل صورة فهرسًا قبل الصورة. استخدِم a b c أو image 1 image 2 image 3 للفهرس. في ما يلي مثال على استخدام صور مفهرسة في طلب:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • استخدِم صورًا بدقة أعلى للحصول على نتائج أفضل.
  • ضمِّن بعض الأمثلة في الطلب.
  • دوِّر الصور إلى الاتجاه الصحيح قبل إضافتها إلى الطلب.
  • تجنَّب الصور غير الواضحة.

الصور: القيود

على الرغم من أنّ نماذج Gemini بتنسيقات متعدّدة فعّالة في العديد من حالات الاستخدام بتنسيقات متعدّدة ، من المهم فهم قيود النماذج:

  • الإشراف على المح1توى: ترفض النماذج تقديم إجابات عن الصور التي تنتهك سياساتنا المتعلّقة بالسلامة.
  • الاستدلال المكاني: لا تكون النماذج دقيقة في تحديد موقع النص أو الكائنات في الصور. قد لا تعرض سوى الأعداد التقريبية للكائنات.
  • الاستخدامات الطبية: لا تكون النماذج مناسبة لتفسير الصور الطبية (مثل صور الأشعة السينية والتصوير المقطعي المحوسب) أو تقديم نصائح طبية.
  • التعرّف على الأشخاص: لا يُفترض استخدام النماذج لتحديد الأشخاص غير المشاهير في الصور.
  • الدقة: قد تُظهر النماذج معلومات غير صحيحة أو ترتكب أخطاء عند تفسير الصور المنخفضة الجودة أو التي تم تدويرها أو المنخفضة الدقة للغاية. قد تُظهر النماذج أيضًا معلومات غير صحيحة عند تفسير النص المكتوب بخط اليد في مستندات الصور.



الفيديوهات: المتطلبات وأفضل الممارسات والقيود

الفيديوهات: المتطلبات

في هذا القسم، يمكنك التعرّف على أنواع MIME المتوافقة والحدود المفروضة على كل طلب للفيديوهات.

أنواع MIME المتوافقة

تتيح نماذج Gemini بتنسيقات متعدّدة أنواع MIME التالية للفيديوهات:

  • FLV - video/x-flv
  • MOV - video/quicktime
  • MPEG - video/mpeg
  • MPEGPS - video/mpegps
  • MPG - video/mpg
  • MP4 - video/mp4
  • WEBM - video/webm
  • WMV - video/wmv
  • 3GPP - video/3gpp

الحدود المفروضة على كل طلب

الحد الأقصى لعدد الملفات لكل طلب: 10 ملفات فيديو

الفيديوهات: إنشاء الرموز المميّزة

في ما يلي كيفية حساب الرموز المميّزة للفيديوهات:

  • يتم ترميز المقطع الصوتي باستخدام لقطات الفيديو. يتم أيضًا تقسيم المقطع الصوتي إلى أجزاء مدة كل منها ثانية واحدة، ويتم احتساب 32 رمزًا مميّزًا لكل جزء. يتم دمج الرموز المميّزة للقطات الفيديو والمحتوى الصوتي مع طوابعها الزمنية. يتم تمثيل الطوابع الزمنية على أنّها 5 رموز مميّزة.
  • بالنسبة إلى الفيديوهات التي يتم أخذ عيّنات منها بمعدّل لقطة واحدة في الثانية أو أقل، يتم تمثيل الطوابع الزمنية للساعة الأولى من الفيديو على أنّها 5 رموز مميّزة لكل لقطة فيديو. ويتم تمثيل الطوابع الزمنية المتبقية على أنّها 7 رموز مميّزة لكل لقطة فيديو.
  • بالنسبة إلى الفيديوهات التي يتم أخذ عيّنات منها بمعدّل أكثر من لقطة واحدة في الثانية، يتم تمثيل الطوابع الزمنية للساعة الأولى من الفيديو على أنّها 9 رموز مميّزة لكل لقطة فيديو. ويتم تمثيل الطوابع الزمنية المتبقية على أنّها 11 رمزًا مميّزًا لكل لقطة فيديو.

الفيديوهات: أفضل الممارسات

عند استخدام الفيديوهات، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على أفضل النتائج:

  • إذا كان طلبك يحتوي على فيديو واحد، ضَع الفيديو قبل الطلب النصي.
  • إذا كنت بحاجة إلى تحديد الموقع الجغرافي للطوابع الزمنية في فيديو يتضمّن محتوى صوتيًا، اطلب من النموذج إنشاء طوابع زمنية تتّبع التنسيق الموضّح في "تنسيق الطابع الزمني".

الفيديوهات: القيود

على الرغم من أنّ نماذج Gemini بتنسيقات متعدّدة فعّالة في العديد من حالات الاستخدام بتنسيقات متعدّدة ، من المهم فهم قيود النماذج:

  • الإشراف على المحتوى: ترفض النماذج تقديم إجابات عن الفيديوهات التي تنتهك سياساتنا المتعلّقة بالسلامة.
  • التعرّف على الأصوات غير الكلامية: قد ترتكب النماذج التي تتيح المحتوى الصوتي أخطاء في التعرّف على الأصوات غير الكلامية.



المحتوى الصوتي: المتطلبات والقيود

المحتوى الصوتي: المتطلبات

في هذا القسم، يمكنك التعرّف على أنواع MIME المتوافقة والحدود المفروضة على كل طلب للمحتوى الصوتي.

أنواع MIME المتوافقة

Gemini تتيح نماذج بتنسيقات متعدّدة أنواع MIME التالية للمحتوى الصوتي:

  • AAC - audio/aac
  • FLAC - audio/flac
  • MP3 - audio/mp3
  • MPA - audio/m4a
  • MPEG - audio/mpeg
  • MPGA - audio/mpga
  • MP4 - audio/mp4
  • OPUS - audio/opus
  • PCM - audio/pcm
  • WAV - audio/wav
  • WEBM - audio/webm

الحدود المفروضة على كل طلب

الحد الأقصى لعدد الملفات لكل طلب: ملف صوتي واحد

المحتوى الصوتي: القيود

على الرغم من أنّ نماذج Gemini بتنسيقات متعدّدة فعّالة في العديد من حالات الاستخدام بتنسيقات متعدّدة ، من المهم فهم قيود النماذج:

  • التعرّف على الأصوات غير الكلامية: قد ترتكب النماذج التي تتيح المحتوى الصوتي أخطاء في التعرّف على الأصوات غير الكلامية.
  • الطوابع الزمنية للمحتوى الصوتي فقط: لإنشاء طوابع زمنية دقيقة للملفات الصوتية فقط، عليك ضبط المَعلمة audio_timestamp في generation_config.



المستندات (مثل ملفات PDF): المتطلبات وأفضل الممارسات والقيود

المستندات: المتطلبات

في هذا القسم، يمكنك التعرّف على أنواع MIME المتوافقة والحدود المفروضة على كل طلب للمستندات (مثل ملفات PDF).

أنواع MIME المتوافقة

تتيح نماذج Gemini بتنسيقات متعدّدة أنواع MIME التالية للمستندات:

  • PDF - application/pdf
  • Text - text/plain

الحدود المفروضة على كل طلب

تُعامَل ملفات PDF على أنّها صور، لذا تُعامَل صفحة واحدة من ملف PDF على أنّها صورة واحدة يقتصر عدد الصفحات المسموح بها في الطلب على عدد الصور التي يمكن أن تتيحها نماذج Gemini بتنسيقات متعدّدة.

  • الحد الأقصى لعدد الملفات لكل طلب: 3,000 ملف
  • الحد الأقصى لعدد الصفحات لكل ملف: 1,000 صفحة لكل ملف
  • الحد الأقصى لحجم كل ملف: 50 ميغابايت لكل ملف

المستندات: إنشاء الرموز المميّزة

إنشاء الرموز المميّزة لملفات PDF

تُعامَل ملفات PDF على أنّها صور، لذا يتم إنشاء رموز مميّزة لكل صفحة من ملف PDF بالطريقة نفسها التي يتم بها إنشاء الرموز المميّزة للصورة.

بالإضافة إلى ذلك، تتبع تكلفة ملفات PDF تسعير صور Gemini. على سبيل المثال، إذا تضمّنت ملف PDF مكوّنًا من صفحتَين في طلب بيانات من واجهة برمجة التطبيقات Gemini، ستتحمّل رسوم إدخال لمعالجة صورتَين.

المستندات: أفضل الممارسات

عند استخدام ملفات PDF، اتّبِع أفضل الممارسات والمعلومات التالية للحصول على الـ أفضل النتائج:

  • إذا كان طلبك يحتوي على ملف PDF واحد، ضَع ملف PDF قبل الطلب النصي في طلبك.
  • إذا كان لديك مستند طويل، ننصحك بتقسيمه إلى ملفات PDF متعدّدة لمعالجته.
  • استخدِم ملفات PDF تم إنشاؤها باستخدام نص معروض كنص بدلاً من استخدام النص في الصور الممسوحة ضوئيًا. يضمن هذا التنسيق أن يكون النص قابلاً للقراءة آليًا، ما يسهّل على النموذج تعديله والبحث عنه والتعامل معه مقارنةً بملفات PDF للصور الممسوحة ضوئيًا. توفر هذه الممارسة أفضل النتائج عند العمل مع المستندات التي تحتوي على الكثير من النصوص، مثل العقود.

المستندات: القيود

على الرغم من أنّ نماذج Gemini بتنسيقات متعدّدة فعّالة في العديد من حالات الاستخدام بتنسيقات متعدّدة ، من المهم فهم قيود النماذج:

  • الاستدلال المكاني: لا تكون النماذج دقيقة في تحديد موقع النص أو الكائنات في ملفات PDF. قد لا تعرض سوى الأعداد التقريبية للكائنات.
  • الدقة: قد تُظهر النماذج معلومات غير صحيحة عند تفسير النص المكتوب بخط اليد في مستندات PDF.