إنشاء نص من طلبات متعدّدة الوسائط باستخدام واجهة برمجة تطبيقات Gemini


عند استدعاء Gemini API من تطبيقك باستخدام حزمة تطوير برامج Vertex AI for Firebase، يمكنك أن تطلب من نموذج Gemini إنشاء نص استنادًا إلى إدخال متعدد الوسائط. يمكن أن تتضمن الطلبات المتعددة الوسائط عدة وسائط (أو أنواع إدخال)، مثل النص مع الصور وملفات PDF والفيديو والصوت.

لاختبار الطلبات المتعدّدة الوسائط وتكرارها، ننصحك باستخدام أداة Vertex AI Studio.

قبل البدء

ننصحك بالرجوع إلى دليل البدء حول حِزم تطوير البرامج (SDK) الخاصة بـ Vertex AI for Firebase إذا لم يسبق لك إجراء ذلك. تأكّد من القيام بكل ما يلي:

  • يمكنك إعداد مشروع جديد أو حالي في Firebase، بما في ذلك استخدام خطة أسعار Blaze وتفعيل واجهات برمجة التطبيقات المطلوبة.

  • يمكنك ربط تطبيقك بمنصة Firebase، بما في ذلك تسجيل تطبيقك وإضافة إعدادات Firebase إلى تطبيقك.

  • أضِف حزمة تطوير البرامج (SDK) وابدأ إعداد خدمة Vertex AI والنموذج التوليدي في تطبيقك.

ستتمكّن من طلب واجهة برمجة تطبيقات Gemini API بعد ربط تطبيقك بمنصة Firebase وإضافة حزمة تطوير البرامج (SDK) وإعداد خدمة Vertex AI والنموذج التوليدي.

إنشاء نص من نص وصورة واحدة

تأكد من إكمال قسم قبل البدء في هذا الدليل قبل تجربة هذا النموذج.

يمكنك طلب واجهة Gemini API من خلال طلبات متعدّدة الوسائط تتضمّن نصًا وملفًا واحدًا (مثل صورة، كما هو موضّح في المثال). لإجراء هذه المكالمات، يجب استخدام نموذج يتوافق مع الطلبات المتعدّدة الوسائط (مثل Gemini 1.5 Pro).

تشمل الملفات المتوافقة الصور وملفات PDF والفيديوهات والصوت والمزيد. عليك التأكّد من مراجعة المتطلبات والاقتراحات المتعلّقة بملفات الإدخال.

اختَر ما إذا كنت تريد عرض الردّ (generateContentStream) أو الانتظار إلى أن يتم إنشاء النتيجة بأكملها (generateContent).

البث

يمكنك تحقيق تفاعلات أسرع من خلال عدم انتظار النتيجة الكاملة من عملية إنشاء النموذج، وبدلاً من ذلك يمكنك استخدام البث لمعالجة النتائج الجزئية.

يوضّح هذا المثال كيفية استخدام generateContentStream() لبث النص الذي تم إنشاؤه من طلب طلب متعدد الوسائط يتضمن نصًا وصورة واحدة:

بدون بث

ويمكنك بدلاً من ذلك انتظار النتيجة بأكملها بدلاً من البث، إذ لا يتم عرض النتيجة إلا بعد أن يُكمل النموذج عملية الإنشاء بالكامل.

يوضّح هذا المثال كيفية استخدام generateContent() لإنشاء نص من طلب طلب متعدد الوسائط يتضمن نصًا وصورة واحدة:

تعرَّف على كيفية اختيار نموذج Gemini واختيار موقع جغرافي مناسب لحالة الاستخدام والتطبيق.

إنشاء نص من نص وصور متعدّدة

تأكد من إكمال قسم قبل البدء في هذا الدليل قبل تجربة هذا النموذج.

يمكنك طلب واجهة Gemini API من خلال طلبات متعدّدة الوسائط تتضمّن نصوصًا وملفات متعددة (مثل الصور، كما هو موضّح في المثال). لإجراء هذه المكالمات، يجب استخدام نموذج يتوافق مع الطلبات المتعدّدة الوسائط (مثل Gemini 1.5 Pro).

تشمل الملفات المتوافقة الصور وملفات PDF والفيديوهات والصوت والمزيد. عليك التأكّد من مراجعة المتطلبات والاقتراحات المتعلّقة بملفات الإدخال.

اختَر ما إذا كنت تريد عرض الردّ (generateContentStream) أو الانتظار إلى أن يتم إنشاء النتيجة بأكملها (generateContent).

البث

يمكنك تحقيق تفاعلات أسرع من خلال عدم انتظار النتيجة الكاملة من عملية إنشاء النموذج، وبدلاً من ذلك يمكنك استخدام البث لمعالجة النتائج الجزئية.

يوضّح هذا المثال كيفية استخدام generateContentStream() لبث النص الذي تم إنشاؤه من طلب طلب متعدد الوسائط يتضمن نصًا وصورًا متعددة:

بدون بث

ويمكنك بدلاً من ذلك انتظار النتيجة بأكملها بدلاً من البث، إذ لا يتم عرض النتيجة إلا بعد أن يُكمل النموذج عملية الإنشاء بالكامل.

يوضّح هذا المثال كيفية استخدام generateContent() لإنشاء نص من طلب طلب متعدد الوسائط يتضمن نصًا وصورًا متعددة:

تعرَّف على كيفية اختيار نموذج Gemini واختيار موقع جغرافي مناسب لحالة الاستخدام والتطبيق.

إنشاء نص من نص وفيديو

تأكد من إكمال قسم قبل البدء في هذا الدليل قبل تجربة هذا النموذج.

يمكنك طلب البيانات من Gemini API من خلال طلبات متعدّدة الوسائط تتضمّن نصًا وفيديو واحدًا (كما هو موضّح في المثال). لإجراء هذه المكالمات، يجب استخدام نموذج يتوافق مع الطلبات المتعدّدة الوسائط (مثل Gemini 1.5 Pro).

عليك التأكّد من مراجعة المتطلبات والاقتراحات المتعلّقة بملفات الإدخال.

اختَر ما إذا كنت تريد عرض الردّ (generateContentStream) أو الانتظار إلى أن يتم إنشاء النتيجة بأكملها (generateContent).

البث

يمكنك تحقيق تفاعلات أسرع من خلال عدم انتظار النتيجة الكاملة من عملية إنشاء النموذج، وبدلاً من ذلك يمكنك استخدام البث لمعالجة النتائج الجزئية.

يوضّح هذا المثال كيفية استخدام generateContentStream() لبث نص تم إنشاؤه من طلب طلب متعدد الوسائط يتضمن نصًا وفيديو واحدًا:

بدون بث

ويمكنك بدلاً من ذلك انتظار النتيجة بأكملها بدلاً من البث، إذ لا يتم عرض النتيجة إلا بعد أن يُكمل النموذج عملية الإنشاء بالكامل.

يوضّح هذا المثال كيفية استخدام generateContent() لإنشاء نص من طلب طلب متعدد الوسائط يتضمن نصًا وفيديو واحدًا:

تعرَّف على كيفية اختيار نموذج Gemini واختيار موقع جغرافي مناسب لحالة الاستخدام والتطبيق.

متطلبات وتوصيات ملفات الإدخال

للتعرّف على أنواع الملفات المتوافقة وكيفية تحديد نوع MIME وكيفية التأكّد من أنّ ملفاتك وطلباتك المتعددة الوسائط تستوفي المتطلبات وتتّبع أفضل الممارسات، يُرجى الاطّلاع على المتطلبات وملفات الإدخال المتوافقة مع Vertex AI Gemini.

ما هي الإجراءات الإضافية التي يمكنك تنفيذها؟

  • تعرَّف على طريقة احتساب الرموز المميّزة قبل إرسال الطلبات الطويلة إلى النموذج.
  • إعداد Cloud Storage for Firebase لتتمكن من تضمين ملفات كبيرة الحجم في الطلبات المتعدّدة الوسائط باستخدام عناوين URL الخاصة بخدمة Cloud Storage. ويمكن أن تتضمّن الملفات صورًا وملفات PDF وفيديو وملفات صوتية.
  • ننصحك بالتفكير في الاستعداد لمرحلة الإنتاج، بما في ذلك إعداد ميزة "فحص التطبيقات من Firebase" لحماية Gemini API من إساءة استخدام العملاء غير المصرّح لهم.

تجربة إمكانات أخرى لواجهة Gemini API

التعرّف على طريقة التحكّم في إنشاء المحتوى

يمكنك أيضًا تجربة الطلبات وإعدادات النماذج باستخدام Vertex AI Studio.

مزيد من المعلومات حول نماذج Gemini

تعرَّف على مزيد من المعلومات حول النماذج المتاحة لحالات الاستخدام المختلفة وأسعارها وأسعارها.


تقديم ملاحظات حول تجربتك مع Vertex AI for Firebase