فایل های ورودی و الزامات پشتیبانی شده

هنگام فراخوانی API Gemini از برنامه خود با استفاده از Firebase AI Logic SDK، می‌توانید مدل Gemini را وادار کنید تا متن را بر اساس ورودی چندوجهی، مانند تصاویر، ویدیو و صدا و اسناد (مانند PDF) تولید کند.

شما باید از انواع فایل‌های پشتیبانی‌شده استفاده کنید، یک نوع MIME پشتیبانی‌شده مشخص کنید و مطمئن شوید که فایل‌ها و درخواست‌های چندوجهی شما الزامات را برآورده می‌کنند و از بهترین شیوه‌ها پیروی می‌کنند.

این صفحه مختص استفاده از GenerativeModel است و موارد زیر را شرح می‌دهد:

گزینه‌هایی برای ارائه فایل‌ها در درخواست‌های چندوجهی

برای مشاهده محتوای خاص ارائه دهنده در این صفحه، ارائه دهنده API Gemini خود را انتخاب کنید.

در هر درخواست چندوجهی، شما همیشه باید موارد زیر را ارائه دهید:

اندازه و تعداد فایل‌هایی که می‌توانید در درخواست ارائه دهید، به نوع فایل ورودی، نحوه ارائه فایل و مدل مورد استفاده بستگی دارد (برای جزئیات بیشتر، به بخش هر نوع فایل ورودی در این صفحه مراجعه کنید).

گزینه ۱ : فایل را به عنوان داده درون خطی ارائه دهید

در مورد فایل‌های ارائه شده به عنوان داده‌های درون‌خطی به موارد زیر توجه کنید:

  • فقط فایل‌های کوچک می‌توانند به عنوان داده‌های درون‌خطی ارسال شوند زیرا محدودیت حجم کل درخواست 20 مگابایت است.

  • فایل در حین انتقال به base64 کدگذاری می‌شود (که باعث افزایش حجم فایل می‌شود).

برای مثالی که نحوه‌ی گنجاندن یک فایل به عنوان داده‌ی درون‌خطی را نشان می‌دهد، به بخش «تولید متن از ورودی متن و فایل (چندوجهی)» مراجعه کنید. توجه داشته باشید که SDKهای پلتفرم‌های اندروید و اپل می‌توانند تصاویر درون‌خطی را در درخواست‌ها بدون نیاز به مشخص کردن نوع MIME مدیریت کنند. اطلاعات بیشتر.

گزینه ۲ : ارائه فایل با استفاده از URL

در اینجا انواع URL های قابل قبول هنگام استفاده از API توسعه دهنده Gemini آورده شده است:

  • آدرس ویدیوی یوتیوب : ویدیوی یوتیوب باید عمومی یا فهرست نشده باشد.

    شما می‌توانید برای هر درخواست، یک آدرس اینترنتی ویدیوی یوتیوب مشخص کنید.



تصاویر : الزامات، بهترین شیوه‌ها و محدودیت‌ها

تصاویر: الزامات

در این بخش، درباره انواع MIME پشتیبانی‌شده و محدودیت‌های هر درخواست برای تصاویر اطلاعات کسب کنید.

انواع MIME پشتیبانی شده

مدل‌های چندوجهی Gemini از انواع MIME تصویر زیر پشتیبانی می‌کنند:

  • PNG - image/png
  • JPEG - image/jpeg
  • WebP - image/webp

محدودیت‌ها به ازای هر درخواست

محدودیت خاصی برای تعداد پیکسل‌های یک تصویر وجود ندارد. با این حال، تصاویر بزرگتر کوچک شده و برای رسیدن به حداکثر وضوح 3072 در 3072 و در عین حال حفظ نسبت ابعاد اصلی، پر می‌شوند.

حداکثر تعداد فایل در هر درخواست: ۳۰۰۰ فایل تصویری

تصاویر: توکن‌سازی

نحوه محاسبه توکن‌ها برای تصاویر به این صورت است:

  • اگر هر دو بعد یک تصویر کمتر یا مساوی ۳۸۴ پیکسل باشند، در آن صورت ۲۵۸ توکن استفاده شده است.
  • اگر یکی از ابعاد تصویر بزرگتر از ۳۸۴ پیکسل باشد، تصویر به قطعات کوچک‌تر تقسیم می‌شود. اندازه هر قطعه به صورت پیش‌فرض برابر با کوچکترین بعد (عرض یا ارتفاع) تقسیم بر ۱.۵ است. در صورت لزوم، هر قطعه طوری تنظیم می‌شود که کوچکتر از ۲۵۶ پیکسل و بزرگتر از ۷۶۸ پیکسل نباشد. سپس هر قطعه به ۷۶۸x۷۶۸ تغییر اندازه داده می‌شود و از ۲۵۸ توکن استفاده می‌کند.

تصاویر: بهترین شیوه‌ها

هنگام استفاده از تصاویر، برای بهترین نتیجه از بهترین شیوه‌ها و اطلاعات زیر استفاده کنید:

  • اگر می‌خواهید متن را در یک تصویر تشخیص دهید، از دستورالعمل‌هایی با یک تصویر واحد استفاده کنید تا نتایج بهتری نسبت به دستورالعمل‌هایی با چندین تصویر داشته باشید.
  • اگر درخواست شما شامل یک تصویر است، تصویر را قبل از متن درخواست قرار دهید.
  • اگر اعلان شما شامل چندین تصویر است و می‌خواهید بعداً در اعلان خود به آنها اشاره کنید یا مدل در پاسخ مدل به آنها اشاره کند، می‌توانید قبل از تصویر، یک اندیس به هر تصویر اختصاص دهید. استفاده از a b c یا image 1 image 2 image 3 برای فهرست شما. در زیر مثالی از استفاده از تصاویر فهرست‌بندی شده در یک اعلان آمده است:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • از تصاویر با وضوح بالاتر استفاده کنید؛ آنها نتایج بهتری به همراه دارند.
  • چند مثال را در متن درخواست بگنجانید.
  • قبل از اضافه کردن تصاویر به اعلان، آنها را در جهت مناسب بچرخانید.
  • از تصاویر مبهم خودداری کنید.

تصاویر: محدودیت‌ها

اگرچه مدل‌های چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیت‌های این مدل‌ها مهم است:

  • تعدیل محتوا : مدل‌ها از ارائه پاسخ در مورد تصاویری که سیاست‌های ایمنی ما را نقض می‌کنند، خودداری می‌کنند.
  • استدلال مکانی : این مدل‌ها در یافتن متن یا اشیاء در تصاویر دقیق نیستند. آن‌ها ممکن است فقط تعداد تقریبی اشیاء را برگردانند.
  • کاربردهای پزشکی : این مدل‌ها برای تفسیر تصاویر پزشکی (مثلاً اشعه ایکس و سی‌تی‌اسکن) یا ارائه مشاوره پزشکی مناسب نیستند.
  • تشخیص افراد : این مدل‌ها برای شناسایی افرادی که در تصاویر افراد مشهور نیستند، در نظر گرفته نشده‌اند.
  • دقت : مدل‌ها ممکن است هنگام تفسیر تصاویر بی‌کیفیت، چرخیده یا با وضوح بسیار پایین، دچار توهم یا اشتباه شوند. همچنین ممکن است هنگام تفسیر متن دست‌نویس در اسناد تصویری دچار توهم شوند.



ویدئو : الزامات، بهترین شیوه‌ها و محدودیت‌ها

ویدئو: الزامات

در این بخش، با انواع MIME پشتیبانی‌شده و محدودیت‌های هر درخواست برای ویدیو آشنا شوید.

انواع MIME پشتیبانی شده

مدل‌های چندوجهی Gemini از انواع MIME ویدیویی زیر پشتیبانی می‌کنند:

  • FLV - video/x-flv
  • MOV - video/quicktime
  • MPEG - video/mpeg
  • MPEGPS - video/mpegps
  • MPG - video/mpg
  • MP4 - video/mp4
  • وب‌ام - video/webm
  • WMV - video/wmv
  • 3GPP - video/3gpp

محدودیت‌ها به ازای هر درخواست

حداکثر تعداد فایل در هر درخواست: ۱۰ فایل ویدیویی

ویدئو: توکن‌سازی

نحوه محاسبه توکن‌ها برای ویدیو به این صورت است:

  • آهنگ صوتی با فریم‌های ویدیویی کدگذاری می‌شود. آهنگ صوتی همچنین به ترانک‌های ۱ ثانیه‌ای تقسیم می‌شود که هر کدام ۳۲ توکن را تشکیل می‌دهند. فریم ویدیویی و توکن‌های صوتی به همراه مهرهای زمانی خود در هم آمیخته شده‌اند. مهرهای زمانی به صورت ۵ توکن نمایش داده می‌شوند.
  • برای ویدیوهایی که با سرعت ۱ فریم در ثانیه (fps) یا کمتر نمونه‌برداری می‌شوند، مهرهای زمانی برای ساعت اول ویدیو به صورت ۵ توکن در هر فریم ویدیو نمایش داده می‌شوند. مهرهای زمانی باقی‌مانده به صورت ۷ توکن در هر فریم ویدیو نمایش داده می‌شوند.
  • برای ویدیوهایی که با سرعت بالاتر از ۱ فریم در ثانیه (fps) نمونه‌برداری می‌شوند، مهرهای زمانی برای ساعت اول ویدیو به صورت ۹ توکن در هر فریم ویدیو نمایش داده می‌شوند. مهرهای زمانی باقی‌مانده به صورت ۱۱ توکن در هر فریم ویدیو نمایش داده می‌شوند.

ویدئو: بهترین شیوه‌ها

هنگام استفاده از ویدیو، برای بهترین نتیجه از بهترین شیوه‌ها و اطلاعات زیر استفاده کنید:

  • اگر پیام شما شامل یک ویدیو است، ویدیو را قبل از متن پیام قرار دهید.
  • اگر به محلی‌سازی مهر زمانی در یک ویدیو با صدا نیاز دارید، از مدل بخواهید مهرهای زمانی را تولید کند که از قالبی که در «قالب مهر زمانی» توضیح داده شده است، پیروی کنند.

ویدئو: محدودیت‌ها

اگرچه مدل‌های چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیت‌های این مدل‌ها مهم است:

  • نظارت بر محتوا : مدل‌ها از ارائه پاسخ در مورد ویدیوهایی که سیاست‌های ایمنی ما را نقض می‌کنند، خودداری می‌کنند.
  • تشخیص صداهای غیرگفتاری : مدل‌هایی که از صدا پشتیبانی می‌کنند، ممکن است در تشخیص صداهایی که گفتار نیستند، اشتباه کنند.



صدا : الزامات و محدودیت‌ها

صدا: الزامات

در این بخش، درباره انواع MIME پشتیبانی‌شده و محدودیت‌های هر درخواست برای صدا اطلاعات کسب کنید.

انواع MIME پشتیبانی شده

مدل‌های چندوجهی Gemini از انواع MIME صوتی زیر پشتیبانی می‌کنند:

  • AAC - audio/aac
  • FLAC - audio/flac
  • MP3 - audio/mp3
  • MPA - audio/m4a
  • MPEG - audio/mpeg
  • MPGA - audio/mpga
  • MP4 - audio/mp4
  • اُپوس - audio/opus
  • PCM - audio/pcm
  • WAV - audio/wav
  • وب‌ام - audio/webm

محدودیت‌ها به ازای هر درخواست

حداکثر تعداد فایل در هر درخواست: ۱ فایل صوتی

صدا: محدودیت‌ها

اگرچه مدل‌های چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیت‌های این مدل‌ها مهم است:

  • تشخیص صداهای غیرگفتاری : مدل‌هایی که از صدا پشتیبانی می‌کنند، ممکن است در تشخیص صداهایی که گفتار نیستند، اشتباه کنند.
  • مهرهای زمانی فقط صوتی : برای تولید دقیق مهرهای زمانی برای فایل‌های فقط صوتی، باید پارامتر audio_timestamp را در generation_config پیکربندی کنید.



اسناد (مانند PDF) : الزامات، بهترین شیوه‌ها و محدودیت‌ها

مدارک: الزامات

در این بخش، درباره انواع MIME پشتیبانی‌شده و محدودیت‌های هر درخواست برای اسناد (مانند PDF) اطلاعات کسب کنید.

انواع MIME پشتیبانی شده

مدل‌های چندوجهی Gemini از انواع MIME سند زیر پشتیبانی می‌کنند:

  • پی‌دی‌اف - application/pdf
  • متن - text/plain

محدودیت‌ها به ازای هر درخواست

فایل‌های PDF به عنوان تصویر در نظر گرفته می‌شوند، بنابراین یک صفحه از PDF به عنوان یک تصویر در نظر گرفته می‌شود. تعداد صفحات مجاز در یک prompt به تعداد تصاویری که مدل‌های چندوجهی Gemini می‌توانند پشتیبانی کنند، محدود شده است.

  • حداکثر تعداد فایل در هر درخواست: ۳۰۰۰ فایل
  • حداکثر تعداد صفحات در هر فایل: ۱۰۰۰ صفحه در هر فایل
  • حداکثر حجم هر فایل: ۵۰ مگابایت برای هر فایل

اسناد: توکن‌سازی

توکن‌سازی PDF

فایل‌های PDF به عنوان تصویر در نظر گرفته می‌شوند، بنابراین هر صفحه از یک PDF به همان روش یک تصویر، توکن‌گذاری می‌شود.

همچنین، هزینه فایل‌های PDF از قیمت‌گذاری تصاویر Gemini پیروی می‌کند. برای مثال، اگر یک فایل PDF دو صفحه‌ای را در فراخوانی API Gemini قرار دهید، برای پردازش دو تصویر، هزینه ورودی متحمل می‌شوید.

اسناد: بهترین شیوه‌ها

هنگام استفاده از فایل‌های PDF، برای بهترین نتیجه از بهترین شیوه‌ها و اطلاعات زیر استفاده کنید:

  • اگر درخواست شما حاوی یک فایل PDF است، آن را قبل از متن درخواست قرار دهید.
  • اگر سند طولانی دارید، برای پردازش آن، تقسیم آن به چندین فایل PDF را در نظر بگیرید.
  • به جای استفاده از متن در تصاویر اسکن شده، از فایل‌های PDF ایجاد شده با متن رندر شده به عنوان متن استفاده کنید. این فرمت تضمین می‌کند که متن توسط ماشین قابل خواندن است، به طوری که ویرایش، جستجو و دستکاری آن برای مدل در مقایسه با PDF های تصویری اسکن شده آسان‌تر است. این روش هنگام کار با اسناد سنگین متن مانند قراردادها، نتایج بهینه‌ای را ارائه می‌دهد.

اسناد: محدودیت‌ها

اگرچه مدل‌های چندوجهی Gemini در بسیاری از موارد استفاده چندوجهی قدرتمند هستند، درک محدودیت‌های این مدل‌ها مهم است:

  • استدلال مکانی : این مدل‌ها در یافتن متن یا اشیاء در فایل‌های PDF دقیق نیستند. آن‌ها ممکن است فقط تعداد تقریبی اشیاء را برگردانند.
  • دقت : مدل‌ها ممکن است هنگام تفسیر متن دست‌نویس در اسناد PDF دچار توهم شوند.