সমর্থিত ইনপুট ফাইল এবং প্রয়োজনীয়তা

Firebase AI Logic SDK ব্যবহার করে আপনার অ্যাপ থেকে Gemini API কল করার সময়, আপনি Gemini মডেলটিকে ছবি, ভিডিও এবং অডিও এবং ডকুমেন্ট (যেমন PDF) এর মতো মাল্টিমোডাল ইনপুটের উপর ভিত্তি করে টেক্সট তৈরি করতে প্রম্পট করতে পারেন।

আপনাকে সমর্থিত ফাইলের ধরণ ব্যবহার করতে হবে, একটি সমর্থিত MIME ধরণ নির্দিষ্ট করতে হবে এবং নিশ্চিত করতে হবে যে আপনার ফাইল এবং মাল্টিমোডাল অনুরোধগুলি প্রয়োজনীয়তা পূরণ করে এবং সর্বোত্তম অনুশীলনগুলি অনুসরণ করে।

এই পৃষ্ঠাটি একটি GenerativeModel ব্যবহারের জন্য নির্দিষ্ট এবং নিম্নলিখিতগুলি বর্ণনা করে:

মাল্টিমোডাল অনুরোধে ফাইল সরবরাহের বিকল্পগুলি

এই পৃষ্ঠায় প্রদানকারী-নির্দিষ্ট সামগ্রী দেখতে আপনার Gemini API প্রদানকারী নির্বাচন করুন।

প্রতিটি মাল্টিমোডাল অনুরোধে, আপনাকে সর্বদা নিম্নলিখিতগুলি প্রদান করতে হবে:

অনুরোধে আপনি কত আকার এবং ফাইল সরবরাহ করতে পারবেন তা ইনপুট ফাইলের ধরণ, আপনি কীভাবে ফাইলটি সরবরাহ করবেন এবং ব্যবহৃত মডেলের উপর নির্ভর করে (বিস্তারিত জানার জন্য, এই পৃষ্ঠায় প্রতিটি ইনপুট ফাইল ধরণের বিভাগটি দেখুন)।

বিকল্প ১ : ফাইলটি ইনলাইন ডেটা হিসেবে প্রদান করুন

ইনলাইন ডেটা হিসেবে প্রদত্ত ফাইলগুলি সম্পর্কে নিম্নলিখিত বিষয়গুলি লক্ষ্য করুন:

  • শুধুমাত্র ছোট ফাইলগুলিকে ইনলাইন ডেটা হিসেবে পাঠানো যেতে পারে কারণ মোট অনুরোধের আকার সীমা ২০ এমবি।

  • ফাইলটি ট্রানজিটে base64 এ এনকোড করা আছে (যা ফাইলের আকার বৃদ্ধি করে)।

ইনলাইন ডেটা হিসেবে একটি ফাইল কীভাবে অন্তর্ভুক্ত করবেন তার উদাহরণের জন্য, টেক্সট-এন্ড-ফাইল (মাল্টিমোডাল) ইনপুট থেকে টেক্সট জেনারেট করুন দেখুন। মনে রাখবেন যে অ্যান্ড্রয়েড এবং অ্যাপল প্ল্যাটফর্মের জন্য SDK গুলি MIME প্রকার নির্দিষ্ট করার প্রয়োজন ছাড়াই অনুরোধগুলিতে ইনলাইন ছবি পরিচালনা করতে পারে। আরও জানুন।

বিকল্প ২ : একটি URL ব্যবহার করে ফাইলটি প্রদান করুন

জেমিনি ডেভেলপার এপিআই ব্যবহার করার সময় গ্রহণযোগ্য ধরণের ইউআরএল এখানে দেওয়া হল:



ছবি : প্রয়োজনীয়তা, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা

ছবি: প্রয়োজনীয়তা

এই বিভাগে, সমর্থিত MIME প্রকার এবং ছবির জন্য প্রতি অনুরোধের সীমা সম্পর্কে জানুন।

সমর্থিত MIME প্রকারগুলি

জেমিনি মাল্টিমোডাল মডেলগুলি নিম্নলিখিত চিত্র MIME প্রকারগুলিকে সমর্থন করে:

  • পিএনজি - image/png
  • JPEG - image/jpeg
  • ওয়েবপি - image/webp

প্রতি অনুরোধের সীমা

একটি ছবিতে পিক্সেলের সংখ্যার কোন নির্দিষ্ট সীমা নেই। তবে, বৃহত্তর ছবিগুলিকে ছোট করে প্যাড করা হয় যাতে সর্বোচ্চ 3072 x 3072 রেজোলিউশনে ফিট করা যায় এবং তাদের আসল আকৃতির অনুপাত বজায় রাখা হয়।

প্রতি অনুরোধে সর্বোচ্চ ফাইল: ৩,০০০টি ছবির ফাইল

ছবি: টোকেনাইজেশন

ছবির জন্য টোকেন কীভাবে গণনা করা হয় তা এখানে দেওয়া হল:

  • যদি একটি ছবির উভয় মাত্রা 384 পিক্সেলের কম বা সমান হয়, তাহলে 258টি টোকেন ব্যবহার করা হয়।
  • যদি কোনও ছবির একটি মাত্রা ৩৮৪ পিক্সেলের বেশি হয়, তাহলে ছবিটি টাইলস আকারে ক্রপ করা হয়। প্রতিটি টাইলের আকার ডিফল্টভাবে ক্ষুদ্রতম মাত্রা (প্রস্থ বা উচ্চতা) ১.৫ দিয়ে ভাগ করলে হবে। প্রয়োজনে, প্রতিটি টাইলের আকার এমনভাবে সমন্বয় করা হয় যাতে এটি ২৫৬ পিক্সেলের চেয়ে ছোট না হয় এবং ৭৬৮ পিক্সেলের চেয়ে বড় না হয়। এরপর প্রতিটি টাইলের আকার ৭৬৮x৭৬৮ করা হয় এবং ২৫৮টি টোকেন ব্যবহার করা হয়।

ছবি: সেরা অনুশীলন

ছবি ব্যবহার করার সময়, সেরা ফলাফলের জন্য নিম্নলিখিত সেরা অনুশীলন এবং তথ্য ব্যবহার করুন:

  • যদি আপনি একটি ছবিতে টেক্সট শনাক্ত করতে চান, তাহলে একাধিক ছবির প্রম্পটের চেয়ে ভালো ফলাফল পেতে একটি ছবির প্রম্পট ব্যবহার করুন।
  • যদি আপনার প্রম্পটে একটি মাত্র ছবি থাকে, তাহলে আপনার অনুরোধে টেক্সট প্রম্পটের আগে ছবিটি রাখুন।
  • যদি আপনার প্রম্পটে একাধিক ছবি থাকে এবং আপনি আপনার প্রম্পটে পরে সেগুলো উল্লেখ করতে চান অথবা মডেল প্রতিক্রিয়ায় মডেলকে সেগুলো উল্লেখ করতে চান, তাহলে প্রতিটি ছবির আগে একটি সূচী দেওয়া সাহায্য করতে পারে। ব্যবহার করুন a b c অথবা আপনার ইনডেক্সের জন্য image 1 image 2 image 3 প্রম্পটে ইনডেক্স করা ছবি ব্যবহারের একটি উদাহরণ নিচে দেওয়া হল:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • উচ্চ রেজোলিউশনের ছবি ব্যবহার করুন; এগুলো আরও ভালো ফলাফল দেয়।
  • প্রম্পটে কয়েকটি উদাহরণ অন্তর্ভুক্ত করুন।
  • প্রম্পটে ছবি যোগ করার আগে সেগুলোকে সঠিক দিকে ঘোরান।
  • ঝাপসা ছবি এড়িয়ে চলুন।

ছবি: সীমাবদ্ধতা

যদিও জেমিনি মাল্টিমোডাল মডেলগুলি অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবুও মডেলগুলির সীমাবদ্ধতাগুলি বোঝা গুরুত্বপূর্ণ:

  • কন্টেন্ট মডারেশন : মডেলরা আমাদের নিরাপত্তা নীতি লঙ্ঘন করে এমন ছবির উত্তর দিতে অস্বীকৃতি জানায়।
  • স্থানিক যুক্তি : মডেলগুলি ছবিতে টেক্সট বা বস্তুর অবস্থান নির্ণয়ে সুনির্দিষ্ট নয়। তারা কেবল বস্তুর আনুমানিক সংখ্যাই ফেরত দিতে পারে।
  • চিকিৎসা ব্যবহার : মডেলগুলি চিকিৎসা চিত্রের (যেমন, এক্স-রে এবং সিটি স্ক্যান) ব্যাখ্যা বা চিকিৎসা পরামর্শ প্রদানের জন্য উপযুক্ত নয়।
  • মানুষ চেনা : মডেলগুলি ছবিতে সেলিব্রিটি নন এমন ব্যক্তিদের শনাক্ত করার জন্য ব্যবহার করা হয়নি।
  • নির্ভুলতা : নিম্নমানের, ঘূর্ণিত, অথবা অত্যন্ত নিম্ন-রেজোলিউশনের ছবি ব্যাখ্যা করার সময় মডেলগুলি হ্যালুসিনেট করতে পারে বা ভুল করতে পারে। চিত্র নথিতে হাতে লেখা লেখা ব্যাখ্যা করার সময়ও মডেলগুলি হ্যালুসিনেট করতে পারে।



ভিডিও : প্রয়োজনীয়তা, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা

ভিডিও: প্রয়োজনীয়তা

এই বিভাগে, ভিডিওর জন্য সমর্থিত MIME প্রকার এবং প্রতি অনুরোধের সীমা সম্পর্কে জানুন।

সমর্থিত MIME প্রকারগুলি

জেমিনি মাল্টিমোডাল মডেলগুলি নিম্নলিখিত ভিডিও MIME প্রকারগুলিকে সমর্থন করে:

  • FLV - video/x-flv
  • MOV - video/quicktime
  • এমপিইজি - video/mpeg
  • MPEGPS - video/mpegps
  • এমপিজি - video/mpg
  • MP4 - video/mp4
  • WEBM - video/webm
  • WMV - video/wmv
  • 3GPP - video/3gpp

প্রতি অনুরোধের সীমা

প্রতি অনুরোধে সর্বোচ্চ ফাইল: ১০টি ভিডিও ফাইল

ভিডিও: টোকেনাইজেশন

ভিডিওর জন্য টোকেন কীভাবে গণনা করা হয় তা এখানে দেওয়া হল:

  • অডিও ট্র্যাকটি ভিডিও ফ্রেমের সাথে এনকোড করা আছে। অডিও ট্র্যাকটি ১-সেকেন্ডের ট্রাঙ্কেও বিভক্ত, যার প্রতিটিতে ৩২টি টোকেন থাকে। ভিডিও ফ্রেম এবং অডিও টোকেনগুলি তাদের টাইমস্ট্যাম্পগুলির সাথে একসাথে সংযুক্ত থাকে। টাইমস্ট্যাম্পগুলিকে ৫টি টোকেন হিসাবে উপস্থাপন করা হয়।
  • যেসব ভিডিওর নমুনা ১ ফ্রেম প্রতি সেকেন্ড (fps) বা তার কম, সেগুলির জন্য ভিডিওর প্রথম ঘন্টার টাইমস্ট্যাম্পগুলি প্রতি ভিডিও ফ্রেমে ৫টি টোকেন হিসাবে উপস্থাপন করা হয়। বাকি টাইমস্ট্যাম্পগুলি প্রতি ভিডিও ফ্রেমে ৭টি টোকেন হিসাবে উপস্থাপন করা হয়।
  • যেসব ভিডিওর নমুনা প্রতি সেকেন্ডে ১ ফ্রেম (fps) এর বেশি, তাদের জন্য প্রথম ঘন্টার ভিডিওর টাইমস্ট্যাম্প প্রতি ভিডিও ফ্রেমে ৯টি টোকেন হিসেবে উপস্থাপন করা হয়। বাকি টাইমস্ট্যাম্পগুলি প্রতি ভিডিও ফ্রেমে ১১টি টোকেন হিসেবে উপস্থাপন করা হয়।

ভিডিও: সর্বোত্তম অনুশীলন

ভিডিও ব্যবহার করার সময়, সর্বোত্তম ফলাফলের জন্য নিম্নলিখিত সর্বোত্তম অনুশীলন এবং তথ্য ব্যবহার করুন:

  • যদি আপনার প্রম্পটে একটি ভিডিও থাকে, তাহলে টেক্সট প্রম্পটের আগে ভিডিওটি রাখুন।
  • যদি আপনার অডিও সহ কোনও ভিডিওতে টাইমস্ট্যাম্প স্থানীয়করণের প্রয়োজন হয়, তাহলে মডেলটিকে "টাইমস্ট্যাম্প ফর্ম্যাট"-এ বর্ণিত ফর্ম্যাট অনুসরণ করে টাইমস্ট্যাম্প তৈরি করতে বলুন।

ভিডিও: সীমাবদ্ধতা

যদিও জেমিনি মাল্টিমোডাল মডেলগুলি অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবুও মডেলগুলির সীমাবদ্ধতাগুলি বোঝা গুরুত্বপূর্ণ:

  • কন্টেন্ট নিয়ন্ত্রণ : মডেলরা আমাদের নিরাপত্তা নীতি লঙ্ঘন করে এমন ভিডিওর উত্তর দিতে অস্বীকৃতি জানায়।
  • নন-স্পিচ সাউন্ড রিকগনিশন : যেসব মডেল অডিও সাপোর্ট করে তারা নন-স্পিচ সাউন্ড চিনতে ভুল করতে পারে।



অডিও : প্রয়োজনীয়তা এবং সীমাবদ্ধতা

অডিও: প্রয়োজনীয়তা

এই বিভাগে, সমর্থিত MIME প্রকার এবং অডিওর জন্য প্রতি অনুরোধের সীমা সম্পর্কে জানুন।

সমর্থিত MIME প্রকারগুলি

জেমিনি মাল্টিমোডাল মডেলগুলি নিম্নলিখিত অডিও MIME প্রকারগুলিকে সমর্থন করে:

  • AAC - audio/aac
  • FLAC - audio/flac
  • MP3 - audio/mp3
  • এমপিএ - audio/m4a
  • এমপিইজি - audio/mpeg
  • এমপিজিএ - audio/mpga
  • MP4 - audio/mp4
  • ওপাস - audio/opus
  • পিসিএম - audio/pcm
  • WAV - audio/wav
  • WEBM - audio/webm

প্রতি অনুরোধের সীমা

প্রতি অনুরোধে সর্বোচ্চ ফাইল: ১টি অডিও ফাইল

অডিও: সীমাবদ্ধতা

যদিও জেমিনি মাল্টিমোডাল মডেলগুলি অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবুও মডেলগুলির সীমাবদ্ধতাগুলি বোঝা গুরুত্বপূর্ণ:

  • নন-স্পিচ সাউন্ড রিকগনিশন : যেসব মডেল অডিও সাপোর্ট করে তারা নন-স্পিচ সাউন্ড চিনতে ভুল করতে পারে।
  • শুধুমাত্র অডিও টাইমস্ট্যাম্প : শুধুমাত্র অডিও ফাইলের জন্য সঠিকভাবে টাইমস্ট্যাম্প তৈরি করতে, আপনাকে generation_configaudio_timestamp প্যারামিটারটি কনফিগার করতে হবে।



নথি (যেমন পিডিএফ) : প্রয়োজনীয়তা, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা

নথি: প্রয়োজনীয়তা

এই বিভাগে, সমর্থিত MIME প্রকার এবং নথির (যেমন PDF) প্রতি অনুরোধের সীমা সম্পর্কে জানুন।

সমর্থিত MIME প্রকারগুলি

জেমিনি মাল্টিমোডাল মডেলগুলি নিম্নলিখিত MIME ধরণের ডকুমেন্ট সমর্থন করে:

  • পিডিএফ - application/pdf
  • টেক্সট - text/plain

প্রতি অনুরোধের সীমা

পিডিএফ ফাইলগুলিকে ছবি হিসেবে বিবেচনা করা হয়, তাই একটি পিডিএফের একটি পৃষ্ঠাকে একটি ছবি হিসেবে বিবেচনা করা হয়। একটি প্রম্পটে অনুমোদিত পৃষ্ঠার সংখ্যা জেমিনি মাল্টিমোডাল মডেলগুলি কতগুলি ছবি সমর্থন করতে পারে তার মধ্যে সীমাবদ্ধ।

  • প্রতি অনুরোধে সর্বোচ্চ ফাইল: ৩,০০০ ফাইল
  • প্রতি ফাইলে সর্বোচ্চ পৃষ্ঠা: প্রতি ফাইলে ১,০০০ পৃষ্ঠা
  • প্রতিটি ফাইলের সর্বোচ্চ আকার: ৫০ এমবি

ডকুমেন্টস: টোকেনাইজেশন

পিডিএফ টোকেনাইজেশন

পিডিএফগুলিকে ছবি হিসেবে বিবেচনা করা হয়, তাই পিডিএফের প্রতিটি পৃষ্ঠাকে ছবির মতোই টোকেনাইজ করা হয়।

এছাড়াও, পিডিএফের খরচ জেমিনি ইমেজ প্রাইসিং এর পরে আসে। উদাহরণস্বরূপ, যদি আপনি একটি জেমিনি এপিআই কলে দুই পৃষ্ঠার পিডিএফ অন্তর্ভুক্ত করেন, তাহলে আপনাকে দুটি ছবি প্রক্রিয়াকরণের জন্য ইনপুট ফি দিতে হবে।

নথি: সর্বোত্তম অনুশীলন

PDF ব্যবহার করার সময়, সেরা ফলাফলের জন্য নিম্নলিখিত সেরা অনুশীলন এবং তথ্য ব্যবহার করুন:

  • যদি আপনার প্রম্পটে একটি মাত্র PDF থাকে, তাহলে আপনার অনুরোধে টেক্সট প্রম্পটের আগে PDF টি রাখুন।
  • যদি আপনার একটি দীর্ঘ নথি থাকে, তাহলে এটি প্রক্রিয়া করার জন্য এটিকে একাধিক PDF এ ভাগ করার কথা বিবেচনা করুন।
  • স্ক্যান করা ছবিতে টেক্সট ব্যবহার করার পরিবর্তে টেক্সট হিসেবে রেন্ডার করা টেক্সট দিয়ে তৈরি PDF ব্যবহার করুন। এই ফর্ম্যাটটি নিশ্চিত করে যে টেক্সটটি মেশিনে পঠনযোগ্য, যাতে স্ক্যান করা ইমেজ PDF এর তুলনায় মডেলের পক্ষে সম্পাদনা, অনুসন্ধান এবং ম্যানিপুলেট করা সহজ হয়। চুক্তির মতো টেক্সট-ভারী ডকুমেন্টের সাথে কাজ করার সময় এই পদ্ধতিটি সর্বোত্তম ফলাফল প্রদান করে।

নথি: সীমাবদ্ধতা

যদিও জেমিনি মাল্টিমোডাল মডেলগুলি অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবুও মডেলগুলির সীমাবদ্ধতাগুলি বোঝা গুরুত্বপূর্ণ:

  • স্থানিক যুক্তি : মডেলগুলি PDF-এ টেক্সট বা বস্তুর অবস্থান নির্ণয়ে সুনির্দিষ্ট নয়। তারা কেবল বস্তুর আনুমানিক সংখ্যাই ফেরত দিতে পারে।
  • নির্ভুলতা : পিডিএফ ডকুমেন্টে হাতে লেখা লেখা ব্যাখ্যা করার সময় মডেলগুলি হ্যালুসিনেট করতে পারে।