مدلهای خانواده جمینی چندوجهی در نظر گرفته میشوند زیرا قادر به پردازش اطلاعات از روشهای مختلف، از جمله تصاویر، ویدئوها و متن هستند. به عنوان مثال، می توانید یک مدل Gemini یک عکس از یک بشقاب کلوچه بفرستید و از او بخواهید که دستور پخت آن کوکی ها را به شما بدهد.
اعلان | پاسخ |
Give me a recipe for these cookies. ![]() | **INGREDIENTS** |
می توانید با استفاده از Gemini API ارائه شده توسط Vertex AI در Google Cloud با خانواده مدل های Gemini تعامل داشته باشید. برای برنامه های موبایل و وب، می توانید از Vertex AI in Firebase SDK برای فراخوانی Gemini API و تعامل مستقیم با مدل های Gemini از برنامه خود استفاده کنید.
این صفحه اطلاعات زیر را در مورد مدل های جمینی ارائه می دهد:
مقایسه سطح بالایی از موارد استفاده برای مدلهای مختلف Gemini، از جمله انواع ورودی پشتیبانیشده آنها.
مقایسه جزئیات برای هر مدل ، به عنوان مثال حداکثر نشانه های ورودی یا حداکثر طول ویدیو.
شرح نحوه نسخهسازی مدلهای Gemini، بهویژه نسخههای پایدار ، بهروزرسانی خودکار و پیشنمایش آنها.
لیستی از نام مدل های موجود برای گنجاندن در کد خود در هنگام شروع اولیه.
لیست زبان های پشتیبانی شده برای مدل های Gemini.
مدل های موجود
می توانید از هر یک از مدل های Gemini زیر با Vertex AI in Firebase استفاده کنید:
فلش جمینی 1.5
مدل چند وجهی که از انواع ورودی و خروجی مشابه 1.5 Pro پشتیبانی می کند، اما با درک زمینه طولانی از 1 میلیون توکن. فلش Gemini 1.5 به طور خاص برای برنامه های کاربردی با حجم بالا و مقرون به صرفه طراحی شده است.جمینی 1.5 پرو
مدل چند وجهی که از افزودن تصویر، صدا، ویدئو و فایلهای PDF در متن یا چت پشتیبانی میکند، پاسخ متن یا کد را درخواست میکند. همچنین، از درک متن طولانی با 2 میلیون توکن پشتیبانی می کند.Gemini 1.0 Pro Vision
مدل چندوجهی طراحی شده برای مدیریت متن به اضافه تصاویر و ویدئو برای پاسخ به متن یا کد. نمی توان برای چت استفاده کرد.Gemini 1.0 Pro
مدل طراحی شده برای انجام وظایف زبان طبیعی، چت چند طرفه با متن و کد، و تولید کد.
به نام مدل ها بروید تا در کد خود قرار دهید
برای هر مدل از موارد و قابلیت ها استفاده کنید
هر مدل Gemini دارای قابلیت های مختلفی برای پشتیبانی از موارد استفاده مختلف است. میتوانید در مستندات Google Cloud درباره هر یک از مدلهای Gemini اطلاعات بیشتری کسب کنید.
ورودی و خروجی پشتیبانی شده برای هر مدل
فلش جمینی 1.5 | جمینی 1.5 پرو | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
انواع ورودی | ||||
متن | ||||
کد | ||||
تصویر | ||||
ویدئو (فقط فریم) | ||||
ویدئو (فریم و صدا) | ||||
صوتی | ||||
انواع خروجی | ||||
متن | ||||
خروجی ساختاریافته (مانند JSON) با استفاده از طرح پاسخ | ||||
کد |
برای آشنایی با انواع فایل های پشتیبانی شده، به فایل های ورودی پشتیبانی شده و الزامات برای Vertex AI Gemini API مراجعه کنید.
قابلیت های پشتیبانی شده و ویژگی های کلی برای هر مدل
فلش جمینی 1.5 | جمینی 1.5 پرو | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
تولید متن از ورودی فقط متنی | |||||
تولید متن از ورودی چندوجهی | |||||
خروجی ساختاریافته (مانند JSON) با استفاده از طرح پاسخ | |||||
چت چند نوبتی | |||||
فراخوانی تابع | |||||
فراخوانی تابع اصلی | |||||
فراخوانی تابع موازی | |||||
عملکرد حالت تماس | |||||
توکن ها و کاراکترهای قابل پرداخت را بشمارید | |||||
دستورالعمل های سیستم |
اطلاعات دقیق در مورد هر مدل
ملک (به ازای درخواست) | فلش جمینی 1.5 | جمینی 1.5 پرو | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
حد کل رمز (ورودی و خروجی ترکیبی) * | 1,048,576 توکن | 2,097,152 توکن | 16384 توکن | 32760 توکن |
محدودیت رمز خروجی * | 8192 توکن | 8192 توکن | 2048 توکن | 8192 توکن |
حداکثر تعداد تصاویر ورودی | 3000 عکس | 3000 عکس | 16 تصویر | --- |
حداکثر اندازه در هر تصویر کدگذاری شده با پایه 64 | 7 مگابایت | 7 مگابایت | 7 مگابایت | --- |
حداکثر تعداد فایل های PDF ورودی ** | 3000 فایل | 3000 فایل | 16 فایل | --- |
حداکثر تعداد صفحات در هر فایل PDF ** | 1000 صفحه | 1000 صفحه | 16 صفحه | --- |
حداکثر اندازه در هر فایل PDF | 50 مگابایت | 50 مگابایت | 50 مگابایت | --- |
حداکثر تعداد فایل های ویدئویی ورودی | 10 فایل | 10 فایل | 1 فایل | --- |
حداکثر طول تمام ویدیوهای ورودی (فقط فریم) | 60 دقیقه | 60 دقیقه | 2 دقیقه | --- |
حداکثر طول تمام ویدیوهای ورودی (فریم + صدا) | ~ 50 دقیقه | ~ 50 دقیقه | --- | --- |
حداکثر تعداد فایل های صوتی ورودی | 1 فایل | 1 فایل | --- | --- |
حداکثر طول تمام صدای ورودی | 8.4 ساعت | 8.4 ساعت | --- | --- |
* برای تمام مدل های جمینی، یک نشانه معادل حدود 4 کاراکتر است، بنابراین 100 توکن حدود 60-80 کلمه انگلیسی است. با استفاده از countTokens
می توانید تعداد کل نشانه ها را در درخواست های خود تعیین کنید.
** فایل های PDF به عنوان تصویر در نظر گرفته می شوند، بنابراین یک صفحه از یک PDF به عنوان یک تصویر در نظر گرفته می شود. تعداد صفحات مجاز در یک درخواست محدود به تعداد تصاویری است که مدل می تواند پشتیبانی کند.
درباره انواع فایلهای پشتیبانیشده، نحوه تعیین نوع MIME، و نحوه اطمینان از اینکه فایلها و درخواستهای چندوجهی شما شرایط را برآورده میکنند و بهترین روشها را در فایلهای ورودی پشتیبانیشده و الزامات Vertex AI Gemini API دنبال میکنند، بیاموزید.
مدل سازی و الگوهای نامگذاری
مدلها در نسخههای پایدار ، بهروزرسانی خودکار و پیشنمایش ارائه میشوند.
نسخه های پایدار به طور کلی در دسترس هستند.
- به عنوان مثال، نسخههای پایدار دارای نام مدلهایی هستند که با یک شماره نسخه سه رقمی خاص اضافه شدهاند
gemini-2.0-flash-001
.
- به عنوان مثال، نسخههای پایدار دارای نام مدلهایی هستند که با یک شماره نسخه سه رقمی خاص اضافه شدهاند
نسخه های به روز شده خودکار همیشه به آخرین نسخه پایدار آن مدل اشاره می کنند. اگر یک نسخه پایدار جدید منتشر شود، نسخه به روز شده خودکار به طور خودکار به آن نسخه پایدار جدید اشاره می کند.
- به عنوان مثال، نسخه های به روز شده خودکار دارای نام مدل بدون ضمیمه هستند
gemini-2.0-flash
.
- به عنوان مثال، نسخه های به روز شده خودکار دارای نام مدل بدون ضمیمه هستند
نسخه های پیش نمایش دارای قابلیت های جدیدی هستند و ثابت نیستند . توجه داشته باشید که نسخه های پیش نمایش همیشه به آخرین نسخه پیش نمایش آن مدل اشاره می کنند. اگر نسخه پیشنمایش جدیدی منتشر شود، هر نسخه پیشنمایش موجود بهطور خودکار به آن نسخه پیشنمایش جدید اشاره میکند.
- نسخههای پیشنمایش دارای نام مدلها هستند
-preview
همراه با تاریخ عرضه اولیه مدل (-MMDD
)، به عنوان مثالgemini-1.5-pro-preview-0409
(منتشر شده در 9 آوریل 2024).
- نسخههای پیشنمایش دارای نام مدلها هستند
درباره نسخههای مدل Gemini موجود و چرخه عمر آنها در اسناد Google Cloud بیشتر بیاموزید.
نام مدل های موجود
نام مدلها مقادیر صریحی هستند که در کد خود در طول اولیهسازی مدل تولیدی (که یک مرحله لازم برای فراخوانی Gemini API است) وارد میکنید. برای مثالهای اولیه برای زبان خود، راهنمای شروع را ببینید.
نام مدل های Gemini 2.0 Flash
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار اولیه | تاریخ توقف |
---|---|---|---|---|
نسخه های پایدار | ||||
gemini-2.0-flash-001 | آخرین نسخه پایدار Gemini 2.0 Flash | در دسترس بودن عمومی | 05-02-2025 | تعیین شود |
نسخه به روز رسانی خودکار | ||||
gemini-2.0-flash | به آخرین نسخه پایدار 2.0 Flash اشاره می کند (در حال حاضر gemini-2.0-flash-001 ) | در دسترس بودن عمومی | 05-02-2025 | --- |
نام مدل های فلش Gemini 1.5
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار اولیه | تاریخ توقف |
---|---|---|---|---|
نسخه های پایدار | ||||
gemini-1.5-flash-002 | آخرین نسخه پایدار Gemini 1.5 Flash | در دسترس بودن عمومی | 2024-09-24 | نه زودتر از 2025-09-24 |
gemini-1.5-flash-001 | نسخه پایدار اولیه Gemini 1.5 Flash | در دسترس بودن عمومی | 2024-05-24 | نه زودتر از 24/05/2025 |
نسخه به روز رسانی خودکار | ||||
gemini-1.5-flash | به آخرین نسخه پایدار 1.5 Flash اشاره می کند (در حال حاضر gemini-1.5-flash-002 ) | در دسترس بودن عمومی | 2024-09-24 | --- |
نام مدل های Gemini 1.5 Pro
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار اولیه | تاریخ توقف |
---|---|---|---|---|
نسخه های پایدار | ||||
gemini-1.5-pro-002 | آخرین نسخه پایدار Gemini 1.5 Pro | در دسترس بودن عمومی | 2024-09-24 | نه زودتر از 2025-09-24 |
gemini-1.5-pro-001 | نسخه پایدار اولیه Gemini 1.5 Pro | در دسترس بودن عمومی | 2024-05-24 | نه زودتر از 24/05/2025 |
نسخه به روز رسانی خودکار | ||||
gemini-1.5-pro | به آخرین نسخه پایدار 1.5 Pro اشاره می کند (در حال حاضر gemini-1.5-pro-002 ) | در دسترس بودن عمومی | 2024-09-24 | --- |
نام مدل های Gemini 1.0 Pro Vision
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار اولیه | تاریخ توقف |
---|---|---|---|---|
نسخه های پایدار | ||||
gemini-1.0-pro-vision-001 | آخرین نسخه پایدار Gemini 1.0 Pro Vision | در دسترس بودن عمومی | 15-02-2024 | نه زودتر از 15/02/2025 |
نسخه به روز رسانی خودکار | ||||
gemini-1.0-pro-vision | به آخرین نسخه پایدار 1.5 Pro Vision اشاره می کند (در حال حاضر gemini-1.5-pro-vision-001 ) | در دسترس بودن عمومی | 04-01-2024 | --- |
نام مدل های Gemini 1.0 Pro
نام مدل | توضیحات | مرحله انتشار | تاریخ انتشار اولیه | تاریخ توقف |
---|---|---|---|---|
نسخه های پایدار | ||||
gemini-1.0-pro-002 | آخرین نسخه پایدار Gemini 1.0 Pro | در دسترس بودن عمومی | 09-04-2024 | نه زودتر از 09-04-2025 |
gemini-1.0-pro-001 | نسخه پایدار Gemini 1.0 Pro | در دسترس بودن عمومی | 15-02-2024 | نه زودتر از 15/02/2025 |
نسخه به روز رسانی خودکار | ||||
gemini-1.0-pro | به آخرین نسخه پایدار 1.0 Pro اشاره می کند (در حال حاضر gemini-1.0-pro-002 ) | در دسترس بودن عمومی | 15-02-2024 | --- |
زبان های پشتیبانی شده
همه مدلهای Gemini میتوانند به زبانهای زیر بفهمند و پاسخ دهند:
عربی (ar)، بنگالی (bn)، بلغاری (bg)، چینی ساده و سنتی (zh)، کرواتی (hr)، چکی (cs)، دانمارکی (da)، هلندی (nl)، انگلیسی (en)، استونیایی (et)، فنلاندی (fi)، فرانسوی (fr)، آلمانی (de)، یونانی (el)، عبری (iw)، هندی (hi)، مجارستانی (hu)، اندونزیایی (id)، ایتالیایی (it)، ژاپنی (ja)، لهستانی (ja)، لیتوانیایی (ja) (pl)، پرتغالی (pt)، رومانیایی (ro)، روسی (ru)، صربی (sr)، اسلواکی (sk)، اسلوونیایی (sl)، اسپانیایی (es)، سواحیلی (sw)، سوئدی (sv)، تایلندی (th)، ترکی (tr)، اوکراینی (UK)، ویتنامی (vi)
مدلهای Gemini 1.5 Pro و Gemini 1.5 Flash میتوانند به زبانهای اضافی زیر بفهمند و پاسخ دهند:
آفریکانس (af)، آمهری (am)، آسامی (ع)، آذربایجانی (az)، بلاروسی (be)، بوسنیایی (bs)، کاتالان (ca)، سبوانو (ceb)، کورسی (co)، ولزی (cy)، Dhivehi (dv)، اسپرانتو (eo)، باسک (eu)، فارسی (fa)، فیلیپینی (تاگالوگ) (fil)، (fy)، ایرلندی (ga)، گالیکایی اسکاتلندی (ga)، گالیکایی گالاتی (ga)، اسکاتلندی (ga) (ha)، هاوایی (haw)، همونگ (hmn)، کریول هائیتی (ht)، ارمنی (hy)، ایگبو (ig)، ایسلندی (is)، جاوه ای (jv)، گرجی (ka)، قزاقستان (kk)، خمر (km)، کانادا (kn)، کریو (kri)، کردی (ku)، قرقیز (ky)، لاتین (la)، لوگزامبورگی (lb)، لائوس (lom)، مالاگازی (ml)، مالاگاسی (mn)، Meiteilon (Manipuri) (mni-Mtei)، مراتی (mr)، مالایی (ms)، مالتی (mt)، میانمار (برمه) (my)، نپالی (ne)، Nyanja (Chichewa) (ny)، Odia (Oriya) (یا)، پنجابی (pa)، پشتو (ps)، Sindhieshalaa (Sd) (sn)، سومالیایی (so)، آلبانیایی (sq)، سسوتو (st)، سوندانی (su)، تامیلی (ta)، تلوگو (te)، تاجیکی (tg)، اویغوری (ug)، اردو (ur)، ازبکی (uz)، Xhosa (xh)، ییدیش (yi)، یروبا (yo)، زولو (zu)
مراحل بعدی
قابلیت های Gemini API را امتحان کنید
- مکالمات چند نوبتی (چت) بسازید.
- متن را از اعلانهای فقط متنی ایجاد کنید.
- متن را از اعلانهای چندوجهی (شامل متن، تصاویر، PDF، ویدئو و صدا) تولید کنید.
- خروجی ساختاریافته (مانند JSON) را هم از دستورات متنی و هم از چند وجهی ایجاد کنید.
- از فراخوانی تابع برای اتصال مدل های مولد به سیستم ها و اطلاعات خارجی استفاده کنید.