هنگام فراخوانی API Gemini از برنامه خود با استفاده از Firebase AI Logic SDK، میتوانید مدل Gemini را وادار کنید تا متن را بر اساس ورودی چندوجهی، مانند تصاویر، ویدیو و صدا و اسناد (مانند PDF) تولید کند.
شما باید از انواع فایلهای پشتیبانیشده استفاده کنید، یک نوع MIME پشتیبانیشده مشخص کنید و مطمئن شوید که فایلها و درخواستهای چندوجهی شما الزامات را برآورده میکنند و از بهترین شیوهها پیروی میکنند.
این صفحه مختص استفاده از GenerativeModel است و موارد زیر را شرح میدهد:
جزئیات مربوط به انواع MIME پشتیبانی شده، بهترین شیوهها و محدودیتهای مربوط به ورودیهای فایل زیر:
تصاویر | ویدیو | صدا | اسناد (مانند PDF) .
گزینههایی برای ارائه فایلها در درخواستهای چندوجهی
برای مشاهده محتوای خاص ارائه دهنده در این صفحه، ارائه دهنده API Gemini خود را انتخاب کنید. |
در هر درخواست چندوجهی، شما همیشه باید موارد زیر را ارائه دهید:
mimeTypeفایل. انواع MIME پشتیبانی شده توسط هر فایل ورودی را در بخش مربوطه در این صفحه مشاهده کنید.فایل. میتوانید فایل را به صورت داده درونخطی ارائه دهید یا فایل را با استفاده از URL آن ارائه دهید .
اندازه و تعداد فایلهایی که میتوانید در درخواست ارائه دهید، به نوع فایل ورودی، نحوه ارائه فایل و مدل مورد استفاده بستگی دارد (برای جزئیات بیشتر، به بخش هر نوع فایل ورودی در این صفحه مراجعه کنید).
گزینه ۱ : فایل را به عنوان داده درون خطی ارائه دهید
در مورد فایلهای ارائه شده به عنوان دادههای درونخطی به موارد زیر توجه کنید:
فقط فایلهای کوچک میتوانند به عنوان دادههای درونخطی ارسال شوند زیرا محدودیت حجم کل درخواست 20 مگابایت است.
فایل در حین انتقال به base64 کدگذاری میشود (که باعث افزایش حجم فایل میشود).
برای مثالی که نحوهی گنجاندن یک فایل به عنوان دادهی درونخطی را نشان میدهد، به بخش «تولید متن از ورودی متن و فایل (چندوجهی)» مراجعه کنید. توجه داشته باشید که SDKهای پلتفرمهای اندروید و اپل میتوانند تصاویر درونخطی را در درخواستها بدون نیاز به مشخص کردن نوع MIME مدیریت کنند. اطلاعات بیشتر.
گزینه ۲ : ارائه فایل با استفاده از URL
در اینجا انواع URL های قابل قبول هنگام استفاده از API توسعه دهنده Gemini آورده شده است:
آدرس ویدیوی یوتیوب : ویدیوی یوتیوب باید عمومی یا فهرست نشده باشد.
شما میتوانید برای هر درخواست، یک آدرس اینترنتی ویدیوی یوتیوب مشخص کنید.
تصاویر : الزامات، بهترین شیوهها و محدودیتها
تصاویر: الزامات
در این بخش، درباره انواع MIME پشتیبانیشده و محدودیتهای هر درخواست برای تصاویر اطلاعات کسب کنید.
انواع MIME پشتیبانی شده
مدلهای چندوجهی Gemini از انواع MIME تصویر زیر پشتیبانی میکنند:
- PNG -
image/png - JPEG -
image/jpeg - WebP -
image/webp
محدودیتها به ازای هر درخواست
محدودیت خاصی برای تعداد پیکسلهای یک تصویر وجود ندارد. با این حال، تصاویر بزرگتر کوچک شده و برای رسیدن به حداکثر وضوح 3072 در 3072 و در عین حال حفظ نسبت ابعاد اصلی، پر میشوند.
حداکثر تعداد فایل در هر درخواست: ۳۰۰۰ فایل تصویری
تصاویر: توکنسازی
نحوه محاسبه توکنها برای تصاویر به این صورت است:
- اگر هر دو بعد یک تصویر کمتر یا مساوی ۳۸۴ پیکسل باشند، در آن صورت ۲۵۸ توکن استفاده شده است.
- اگر یکی از ابعاد تصویر بزرگتر از ۳۸۴ پیکسل باشد، تصویر به قطعات کوچکتر تقسیم میشود. اندازه هر قطعه به صورت پیشفرض برابر با کوچکترین بعد (عرض یا ارتفاع) تقسیم بر ۱.۵ است. در صورت لزوم، هر قطعه طوری تنظیم میشود که کوچکتر از ۲۵۶ پیکسل و بزرگتر از ۷۶۸ پیکسل نباشد. سپس هر قطعه به ۷۶۸x۷۶۸ تغییر اندازه داده میشود و از ۲۵۸ توکن استفاده میکند.
تصاویر: بهترین شیوهها
هنگام استفاده از تصاویر، برای بهترین نتیجه از بهترین شیوهها و اطلاعات زیر استفاده کنید:
- اگر میخواهید متن را در یک تصویر تشخیص دهید، از دستورالعملهایی با یک تصویر واحد استفاده کنید تا نتایج بهتری نسبت به دستورالعملهایی با چندین تصویر داشته باشید.
- اگر درخواست شما شامل یک تصویر است، تصویر را قبل از متن درخواست قرار دهید.
- اگر اعلان شما شامل چندین تصویر است و میخواهید بعداً در اعلان خود به آنها اشاره کنید یا مدل در پاسخ مدل به آنها اشاره کند، میتوانید قبل از تصویر، یک اندیس به هر تصویر اختصاص دهید. استفاده از
abcیاimage 1image 2image 3برای فهرست شما. در زیر مثالی از استفاده از تصاویر فهرستبندی شده در یک اعلان آمده است:image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - از تصاویر با وضوح بالاتر استفاده کنید؛ آنها نتایج بهتری به همراه دارند.
- چند مثال را در متن درخواست بگنجانید.
- قبل از اضافه کردن تصاویر به اعلان، آنها را در جهت مناسب بچرخانید.
- از تصاویر مبهم خودداری کنید.
تصاویر: محدودیتها
اگرچه مدلهای چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیتهای این مدلها مهم است:
- تعدیل محتوا : مدلها از ارائه پاسخ در مورد تصاویری که سیاستهای ایمنی ما را نقض میکنند، خودداری میکنند.
- استدلال مکانی : این مدلها در یافتن متن یا اشیاء در تصاویر دقیق نیستند. آنها ممکن است فقط تعداد تقریبی اشیاء را برگردانند.
- کاربردهای پزشکی : این مدلها برای تفسیر تصاویر پزشکی (مثلاً اشعه ایکس و سیتیاسکن) یا ارائه مشاوره پزشکی مناسب نیستند.
- تشخیص افراد : این مدلها برای شناسایی افرادی که در تصاویر افراد مشهور نیستند، در نظر گرفته نشدهاند.
- دقت : مدلها ممکن است هنگام تفسیر تصاویر بیکیفیت، چرخیده یا با وضوح بسیار پایین، دچار توهم یا اشتباه شوند. همچنین ممکن است هنگام تفسیر متن دستنویس در اسناد تصویری دچار توهم شوند.
ویدئو : الزامات، بهترین شیوهها و محدودیتها
ویدئو: الزامات
در این بخش، با انواع MIME پشتیبانیشده و محدودیتهای هر درخواست برای ویدیو آشنا شوید.
انواع MIME پشتیبانی شده
مدلهای چندوجهی Gemini از انواع MIME ویدیویی زیر پشتیبانی میکنند:
- FLV -
video/x-flv - MOV -
video/quicktime - MPEG -
video/mpeg - MPEGPS -
video/mpegps - MPG -
video/mpg - MP4 -
video/mp4 - وبام -
video/webm - WMV -
video/wmv - 3GPP -
video/3gpp
محدودیتها به ازای هر درخواست
حداکثر تعداد فایل در هر درخواست: ۱۰ فایل ویدیویی
ویدئو: توکنسازی
نحوه محاسبه توکنها برای ویدیو به این صورت است:
- آهنگ صوتی با فریمهای ویدیویی کدگذاری میشود. آهنگ صوتی همچنین به
ترانکهای ۱ ثانیهای تقسیم میشود که هر کدام ۳۲ توکن را تشکیل میدهند. فریم ویدیویی و توکنهای صوتی به همراه مهرهای زمانی خود در هم آمیخته شدهاند. مهرهای زمانی به صورت ۵ توکن نمایش داده میشوند. - برای ویدیوهایی که با
سرعت ۱ فریم در ثانیه (fps) یا کمتر نمونهبرداری میشوند، مهرهای زمانی برای ساعت اول ویدیو به صورت ۵ توکن در هر فریم ویدیو نمایش داده میشوند. مهرهای زمانی باقیمانده به صورت ۷ توکن در هر فریم ویدیو نمایش داده میشوند. - برای ویدیوهایی که با سرعت بالاتر از
۱ فریم در ثانیه (fps) نمونهبرداری میشوند، مهرهای زمانی برای ساعت اول ویدیو به صورت ۹ توکن در هر فریم ویدیو نمایش داده میشوند. مهرهای زمانی باقیمانده به صورت ۱۱ توکن در هر فریم ویدیو نمایش داده میشوند.
ویدئو: بهترین شیوهها
هنگام استفاده از ویدیو، برای بهترین نتیجه از بهترین شیوهها و اطلاعات زیر استفاده کنید:
- اگر پیام شما شامل یک ویدیو است، ویدیو را قبل از متن پیام قرار دهید.
- اگر به محلیسازی مهر زمانی در یک ویدیو با صدا نیاز دارید، از مدل بخواهید مهرهای زمانی را تولید کند که از قالبی که در «قالب مهر زمانی» توضیح داده شده است، پیروی کنند.
ویدئو: محدودیتها
اگرچه مدلهای چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیتهای این مدلها مهم است:
- نظارت بر محتوا : مدلها از ارائه پاسخ در مورد ویدیوهایی که سیاستهای ایمنی ما را نقض میکنند، خودداری میکنند.
- تشخیص صداهای غیرگفتاری : مدلهایی که از صدا پشتیبانی میکنند، ممکن است در تشخیص صداهایی که گفتار نیستند، اشتباه کنند.
صدا : الزامات و محدودیتها
صدا: الزامات
در این بخش، درباره انواع MIME پشتیبانیشده و محدودیتهای هر درخواست برای صدا اطلاعات کسب کنید.
انواع MIME پشتیبانی شده
مدلهای چندوجهی Gemini از انواع MIME صوتی زیر پشتیبانی میکنند:
- AAC -
audio/aac - FLAC -
audio/flac - MP3 -
audio/mp3 - MPA -
audio/m4a - MPEG -
audio/mpeg - MPGA -
audio/mpga - MP4 -
audio/mp4 - اُپوس -
audio/opus - PCM -
audio/pcm - WAV -
audio/wav - وبام -
audio/webm
محدودیتها به ازای هر درخواست
حداکثر تعداد فایل در هر درخواست: ۱ فایل صوتیصدا: محدودیتها
اگرچه مدلهای چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیتهای این مدلها مهم است:
- تشخیص صداهای غیرگفتاری : مدلهایی که از صدا پشتیبانی میکنند، ممکن است در تشخیص صداهایی که گفتار نیستند، اشتباه کنند.
- مهرهای زمانی فقط صوتی : برای تولید دقیق مهرهای زمانی برای فایلهای فقط صوتی، باید پارامتر
audio_timestampرا درgeneration_configپیکربندی کنید.
اسناد (مانند PDF) : الزامات، بهترین شیوهها و محدودیتها
مدارک: الزامات
در این بخش، درباره انواع MIME پشتیبانیشده و محدودیتهای هر درخواست برای اسناد (مانند PDF) اطلاعات کسب کنید.
انواع MIME پشتیبانی شده
مدلهای چندوجهی Gemini از انواع MIME سند زیر پشتیبانی میکنند:
- پیدیاف -
application/pdf - متن -
text/plain
محدودیتها به ازای هر درخواست
فایلهای PDF به عنوان تصویر در نظر گرفته میشوند، بنابراین یک صفحه از PDF به عنوان یک تصویر در نظر گرفته میشود. تعداد صفحات مجاز در یک prompt به تعداد تصاویری که مدلهای چندوجهی Gemini میتوانند پشتیبانی کنند، محدود شده است.
- حداکثر تعداد فایل در هر درخواست: ۳۰۰۰ فایل
- حداکثر تعداد صفحات در هر فایل: ۱۰۰۰ صفحه در هر فایل
- حداکثر حجم هر فایل: ۵۰ مگابایت برای هر فایل
اسناد: توکنسازی
توکنسازی PDF
فایلهای PDF به عنوان تصویر در نظر گرفته میشوند، بنابراین هر صفحه از یک PDF به همان روش یک تصویر، توکنگذاری میشود.
همچنین، هزینه فایلهای PDF از قیمتگذاری تصاویر Gemini پیروی میکند. برای مثال، اگر یک فایل PDF دو صفحهای را در فراخوانی API Gemini قرار دهید، برای پردازش دو تصویر، هزینه ورودی متحمل میشوید.
اسناد: بهترین شیوهها
هنگام استفاده از فایلهای PDF، برای بهترین نتیجه از بهترین شیوهها و اطلاعات زیر استفاده کنید:
- اگر درخواست شما حاوی یک فایل PDF است، آن را قبل از متن درخواست قرار دهید.
- اگر سند طولانی دارید، برای پردازش آن، تقسیم آن به چندین فایل PDF را در نظر بگیرید.
- به جای استفاده از متن در تصاویر اسکن شده، از فایلهای PDF ایجاد شده با متن رندر شده به عنوان متن استفاده کنید. این فرمت تضمین میکند که متن توسط ماشین قابل خواندن است، به طوری که ویرایش، جستجو و دستکاری آن برای مدل در مقایسه با PDF های تصویری اسکن شده آسانتر است. این روش هنگام کار با اسناد سنگین متن مانند قراردادها، نتایج بهینهای را ارائه میدهد.
اسناد: محدودیتها
اگرچه مدلهای چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیتهای این مدلها مهم است:
- استدلال مکانی : این مدلها در یافتن متن یا اشیاء در فایلهای PDF دقیق نیستند. آنها ممکن است فقط تعداد تقریبی اشیاء را برگردانند.
- دقت : مدلها ممکن است هنگام تفسیر متن دستنویس در اسناد PDF دچار توهم شوند.