সমর্থিত ইনপুট ফাইল এবং প্রয়োজনীয়তা

Firebase AI Logic SDK ব্যবহার করে আপনার অ্যাপ থেকে Gemini API কল করার সময়, আপনি Gemini মডেলকে ছবি, ভিডিও, অডিও এবং ডকুমেন্ট (যেমন PDF)-এর মতো মাল্টিমোডাল ইনপুটের উপর ভিত্তি করে টেক্সট তৈরি করতে নির্দেশ দিতে পারেন।

আপনাকে সমর্থিত ফাইলের ধরন ব্যবহার করতে হবে, একটি সমর্থিত MIME টাইপ নির্দিষ্ট করতে হবে এবং নিশ্চিত করতে হবে যে আপনার ফাইল ও মাল্টিমোডাল অনুরোধগুলো প্রয়োজনীয়তা পূরণ করে এবং সর্বোত্তম অনুশীলন অনুসরণ করে।

এই পৃষ্ঠাটি বিশেষভাবে GenerativeModel ব্যবহারের উপর আলোকপাত করে এবং নিম্নলিখিত বিষয়গুলো বর্ণনা করে:

মাল্টিমোডাল অনুরোধে ফাইল প্রদানের বিকল্পসমূহ

এই পৃষ্ঠায় প্রদানকারী-নির্দিষ্ট বিষয়বস্তু দেখতে আপনার জেমিনি এপিআই প্রদানকারী নির্বাচন করুন।

প্রতিটি মাল্টিমোডাল অনুরোধে আপনাকে অবশ্যই নিম্নলিখিত বিষয়গুলো প্রদান করতে হবে:

অনুরোধে আপনি যে আকারের ও সংখ্যক ফাইল সরবরাহ করতে পারবেন, তা নির্ভর করে ইনপুট ফাইলের ধরন, আপনি কীভাবে ফাইলটি সরবরাহ করছেন এবং ব্যবহৃত মডেলের উপর (বিস্তারিত জানতে, এই পৃষ্ঠায় প্রতিটি ইনপুট ফাইলের ধরনের বিভাগটি দেখুন)।

বিকল্প ১ : ফাইলটি ইনলাইন ডেটা হিসেবে প্রদান করুন

ইনলাইন ডেটা হিসাবে প্রদত্ত ফাইলগুলি সম্পর্কে নিম্নলিখিত বিষয়গুলি লক্ষ্য করুন:

  • মোট অনুরোধের আকারের সীমা ২০ মেগাবাইট হওয়ায়, শুধুমাত্র ছোট ফাইলগুলোই ইনলাইন ডেটা হিসেবে পাঠানো যাবে।

  • স্থানান্তরের সময় ফাইলটিকে বেস৬৪-এ এনকোড করা হয় (যা ফাইলের আকার বাড়িয়ে দেয়)।

ইনলাইন ডেটা হিসেবে কীভাবে একটি ফাইল অন্তর্ভুক্ত করতে হয় তার একটি উদাহরণের জন্য, "টেক্সট-এবং-ফাইল (মাল্টিমোডাল) ইনপুট থেকে টেক্সট তৈরি করুন" দেখুন। উল্লেখ্য যে, অ্যান্ড্রয়েড এবং অ্যাপল প্ল্যাটফর্মের SDK-গুলো MIME টাইপ নির্দিষ্ট করার প্রয়োজন ছাড়াই অনুরোধে ইনলাইন ছবি পরিচালনা করতে পারে। আরও জানুন।

বিকল্প ২ : URL ব্যবহার করে ফাইলটি প্রদান করুন

জেমিনি ডেভেলপার এপিআই ব্যবহার করার ক্ষেত্রে গ্রহণযোগ্য ইউআরএল-এর প্রকারভেদগুলো হলো:

  • ইউটিউব ভিডিও ইউআরএল : ইউটিউব ভিডিওটি অবশ্যই পাবলিক বা আনলিস্টেড হতে হবে।

    প্রতি অনুরোধে আপনি একটি ইউটিউব ভিডিও ইউআরএল নির্দিষ্ট করতে পারেন।



চিত্র : প্রয়োজনীয়তা, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা

ছবি: প্রয়োজনীয়তা

এই বিভাগে, সমর্থিত MIME টাইপ এবং ইমেজের জন্য প্রতি অনুরোধের সীমা সম্পর্কে জানুন।

সমর্থিত MIME প্রকারগুলি

জেমিনি মাল্টিমোডাল মডেলগুলো নিম্নলিখিত ইমেজ MIME টাইপগুলো সমর্থন করে:

  • PNG - image/png
  • JPEG - image/jpeg
  • WebP - image/webp

অনুরোধ প্রতি সীমা

একটি ছবিতে পিক্সেলের সংখ্যার কোনো নির্দিষ্ট সীমা নেই। তবে, বড় ছবিগুলোকে তাদের মূল অ্যাস্পেক্ট রেশিও বজায় রেখে সর্বোচ্চ ৩০৭২ x ৩০৭২ রেজোলিউশনের মধ্যে আনার জন্য ছোট করে আনা হয় এবং প্যাডিং যোগ করা হয়।

প্রতি অনুরোধে সর্বোচ্চ ফাইলের সংখ্যা: ৩,০০০টি ইমেজ ফাইল

ছবি: টোকেনাইজেশন

ইমেজের জন্য টোকেন যেভাবে গণনা করা হয় তা নিচে দেওয়া হলো:

  • যদি কোনো ছবির উভয় মাত্রা ৩৮৪ পিক্সেল বা তার কম হয়, তাহলে ২৫৮টি টোকেন ব্যবহৃত হয়।
  • যদি কোনো ছবির একটি মাত্রা ৩৮৪ পিক্সেলের বেশি হয়, তাহলে ছবিটিকে টাইলগুলিতে ক্রপ করা হয়। প্রতিটি টাইলের আকার ডিফল্টভাবে ক্ষুদ্রতম মাত্রা (প্রস্থ বা উচ্চতা)-কে ১.৫ দিয়ে ভাগ করে পাওয়া যায়। প্রয়োজনে, প্রতিটি টাইল এমনভাবে সামঞ্জস্য করা হয় যাতে এটি ২৫৬ পিক্সেলের চেয়ে ছোট এবং ৭৬৮ পিক্সেলের চেয়ে বড় না হয়। এরপর প্রতিটি টাইলকে ৭৬৮x৭৬৮ আকারে রিসাইজ করা হয় এবং এটি ২৫৮টি টোকেন ব্যবহার করে।

ছবি: সর্বোত্তম অনুশীলন

ছবি ব্যবহার করার সময়, সর্বোত্তম ফলাফলের জন্য নিম্নলিখিত সেরা অনুশীলন এবং তথ্যগুলো অনুসরণ করুন:

  • কোনো ছবির মধ্যে থাকা লেখা শনাক্ত করতে চাইলে, একাধিক ছবির প্রম্পটের চেয়ে একটিমাত্র ছবির প্রম্পট ব্যবহার করলে আরও ভালো ফলাফল পাওয়া যায়।
  • আপনার প্রম্পটে যদি একটিমাত্র ছবি থাকে, তাহলে অনুরোধে ছবিটি টেক্সট প্রম্পটের আগে রাখুন।
  • যদি আপনার প্রম্পটে একাধিক ছবি থাকে এবং আপনি পরে প্রম্পটে সেগুলোর উল্লেখ করতে চান অথবা মডেলের প্রতিক্রিয়ায় মডেলকে দিয়ে সেগুলোর উল্লেখ করাতে চান, তাহলে প্রতিটি ছবির আগে একটি ইনডেক্স দেওয়া সহায়ক হতে পারে। ব্যবহার করুন a b c অথবা আপনার ইনডেক্সের জন্য image 1 image 2 image 3 একটি প্রম্পটে ইনডেক্স করা ছবি ব্যবহারের একটি উদাহরণ নিচে দেওয়া হলো:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • উচ্চ রেজোলিউশনের ছবি ব্যবহার করুন; এতে আরও ভালো ফলাফল পাওয়া যায়।
  • নির্দেশনায় কয়েকটি উদাহরণ অন্তর্ভুক্ত করুন।
  • প্রম্পটে যোগ করার আগে ছবিগুলোকে তাদের সঠিক অবস্থানে ঘুরিয়ে নিন।
  • ঝাপসা ছবি পরিহার করুন।

ছবি: সীমাবদ্ধতা

যদিও জেমিনি মাল্টিমোডাল মডেলগুলো অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবুও এই মডেলগুলোর সীমাবদ্ধতাগুলো বোঝা গুরুত্বপূর্ণ:

  • বিষয়বস্তু নিয়ন্ত্রণ : মডেলরা এমন কোনো ছবির বিষয়ে উত্তর দিতে অস্বীকার করেন যা আমাদের নিরাপত্তা নীতি লঙ্ঘন করে।
  • স্থানিক যুক্তি : মডেলগুলো ছবির মধ্যে থাকা লেখা বা বস্তু নির্ভুলভাবে শনাক্ত করতে পারে না। এগুলো হয়তো শুধু বস্তুর আনুমানিক সংখ্যাই জানাতে পারে।
  • চিকিৎসাগত ব্যবহার : এই মডেলগুলো মেডিকেল ইমেজ (যেমন, এক্স-রে এবং সিটি স্ক্যান) ব্যাখ্যা করার জন্য বা চিকিৎসাগত পরামর্শ দেওয়ার জন্য উপযুক্ত নয়।
  • ব্যক্তি শনাক্তকরণ : এই মডেলগুলো ছবিতে থাকা অখ্যাত ব্যক্তিদের শনাক্ত করার জন্য ব্যবহার করার উদ্দেশ্যে তৈরি করা হয়নি।
  • নির্ভুলতা : নিম্নমানের, ঘোরানো বা অত্যন্ত কম রেজোলিউশনের ছবি ব্যাখ্যা করার সময় মডেলগুলো বিভ্রমের শিকার হতে পারে বা ভুল করতে পারে। ছবির ডকুমেন্টে হাতে লেখা পাঠ্য ব্যাখ্যা করার সময়ও মডেলগুলো বিভ্রমের শিকার হতে পারে।



ভিডিও : প্রয়োজনীয়তা, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা

ভিডিও: প্রয়োজনীয়তা

এই বিভাগে, ভিডিওর জন্য সমর্থিত MIME টাইপ এবং প্রতি অনুরোধে এর সীমা সম্পর্কে জানুন।

সমর্থিত MIME প্রকারগুলি

জেমিনি মাল্টিমোডাল মডেলগুলো নিম্নলিখিত ভিডিও MIME টাইপগুলো সমর্থন করে:

  • FLV - video/x-flv
  • MOV - video/quicktime
  • MPEG - video/mpeg
  • MPEGPS - video/mpegps
  • MPG - video/mpg
  • MP4 - video/mp4
  • WEBM - video/webm
  • WMV - video/wmv
  • 3GPP - video/3gpp

অনুরোধ প্রতি সীমা

প্রতি অনুরোধে সর্বোচ্চ ফাইলের সংখ্যা: ১০টি ভিডিও ফাইল

ভিডিও: টোকেনাইজেশন

ভিডিওর জন্য টোকেন যেভাবে গণনা করা হয় তা নিচে দেওয়া হলো:

  • অডিও ট্র্যাকটি ভিডিও ফ্রেমের সাথে এনকোড করা হয়। অডিও ট্র্যাকটিকে আবার ১-সেকেন্ডের খণ্ডে বিভক্ত করা হয়, যার প্রতিটিতে ৩২টি টোকেন থাকে। ভিডিও ফ্রেম এবং অডিও টোকেনগুলো তাদের টাইমস্ট্যাম্পসহ একে অপরের সাথে বিন্যস্ত থাকে। টাইমস্ট্যাম্পগুলো ৫টি টোকেন হিসেবে উপস্থাপন করা হয়।
  • যেসব ভিডিও প্রতি সেকেন্ডে ১ ফ্রেম (fps) বা তার কম হারে স্যাম্পল করা হয়, সেগুলোর ক্ষেত্রে ভিডিওর প্রথম এক ঘণ্টার টাইমস্ট্যাম্প প্রতি ভিডিও ফ্রেমে ৫টি টোকেন হিসেবে এবং বাকি টাইমস্ট্যাম্পগুলো প্রতি ভিডিও ফ্রেমে ৭টি টোকেন হিসেবে দেখানো হয়।
  • যেসব ভিডিও প্রতি সেকেন্ডে ১ ফ্রেমের (fps) বেশি হারে স্যাম্পল করা হয়, সেগুলোর ক্ষেত্রে ভিডিওর প্রথম এক ঘণ্টার টাইমস্ট্যাম্প প্রতি ভিডিও ফ্রেমে ৯টি টোকেন হিসেবে এবং বাকি টাইমস্ট্যাম্পগুলো প্রতি ভিডিও ফ্রেমে ১১টি টোকেন হিসেবে দেখানো হয়।

ভিডিও: সর্বোত্তম অনুশীলন

ভিডিও ব্যবহার করার সময়, সর্বোত্তম ফলাফলের জন্য নিম্নলিখিত সেরা অনুশীলন এবং তথ্যগুলো অনুসরণ করুন:

  • আপনার প্রম্পটে যদি একটিমাত্র ভিডিও থাকে, তাহলে ভিডিওটি টেক্সট প্রম্পটের আগে রাখুন।
  • অডিও সহ কোনো ভিডিওতে টাইমস্ট্যাম্পের অবস্থান নির্ণয়ের প্রয়োজন হলে, মডেলটিকে "টাইমস্ট্যাম্প ফরম্যাট"-এ বর্ণিত বিন্যাস অনুসরণ করে টাইমস্ট্যাম্প তৈরি করতে বলুন।

ভিডিও: সীমাবদ্ধতা

যদিও জেমিনি মাল্টিমোডাল মডেলগুলো অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবুও এই মডেলগুলোর সীমাবদ্ধতাগুলো বোঝা গুরুত্বপূর্ণ:

  • বিষয়বস্তু নিয়ন্ত্রণ : যেসব ভিডিও আমাদের নিরাপত্তা নীতি লঙ্ঘন করে, মডেলরা সেগুলিতে উত্তর দিতে অস্বীকার করেন।
  • অ-কথ্য শব্দ শনাক্তকরণ : যে মডেলগুলো অডিও সমর্থন করে, সেগুলো কথ্য শব্দ নয় এমন শব্দ শনাক্ত করতে ভুল করতে পারে।



অডিও : প্রয়োজনীয়তা এবং সীমাবদ্ধতা

অডিও: প্রয়োজনীয়তা

এই বিভাগে, অডিওর জন্য সমর্থিত MIME টাইপ এবং প্রতি অনুরোধে এর সীমা সম্পর্কে জানুন।

সমর্থিত MIME প্রকারগুলি

জেমিনি মাল্টিমোডাল মডেলগুলো নিম্নলিখিত অডিও MIME টাইপগুলো সমর্থন করে:

  • AAC - audio/aac
  • FLAC - audio/flac
  • MP3 - audio/mp3
  • এমপিএ - audio/m4a
  • MPEG - audio/mpeg
  • MPGA - audio/mpga
  • MP4 - audio/mp4
  • OPUS - audio/opus
  • PCM - audio/pcm
  • WAV - audio/wav
  • WEBM - audio/webm

অনুরোধ প্রতি সীমা

প্রতি অনুরোধে সর্বোচ্চ ফাইলের সংখ্যা: ১টি অডিও ফাইল

অডিও: সীমাবদ্ধতা

যদিও জেমিনি মাল্টিমোডাল মডেলগুলো অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবুও এই মডেলগুলোর সীমাবদ্ধতাগুলো বোঝা গুরুত্বপূর্ণ:

  • অ-কথ্য শব্দ শনাক্তকরণ : যে মডেলগুলো অডিও সমর্থন করে, সেগুলো কথ্য শব্দ নয় এমন শব্দ শনাক্ত করতে ভুল করতে পারে।
  • শুধুমাত্র অডিওর টাইমস্ট্যাম্প : শুধুমাত্র অডিও ফাইলগুলির জন্য নির্ভুলভাবে টাইমস্ট্যাম্প তৈরি করতে, আপনাকে অবশ্যই generation_configaudio_timestamp প্যারামিটারটি কনফিগার করতে হবে।



ডকুমেন্ট (যেমন পিডিএফ) : প্রয়োজনীয়তা, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা

নথিপত্র: প্রয়োজনীয়তা

এই বিভাগে, ডকুমেন্টের (যেমন পিডিএফ) জন্য সমর্থিত MIME টাইপ এবং প্রতি অনুরোধে এর সীমা সম্পর্কে জানুন।

সমর্থিত MIME প্রকারগুলি

জেমিনি মাল্টিমোডাল মডেলগুলো নিম্নলিখিত ডকুমেন্ট MIME টাইপগুলো সমর্থন করে:

  • পিডিএফ - application/pdf
  • টেক্সট - text/plain

অনুরোধ প্রতি সীমা

পিডিএফ ফাইলকে ছবি হিসেবে গণ্য করা হয়, তাই একটি পিডিএফ-এর একটি পৃষ্ঠাকে একটি ছবি হিসেবে বিবেচনা করা হয়। একটি প্রম্পটে অনুমোদিত পৃষ্ঠার সংখ্যা, জেমিনি মাল্টিমোডাল মডেলগুলো যতগুলো ছবি সমর্থন করতে পারে, তার সংখ্যার মধ্যে সীমাবদ্ধ থাকে।

  • প্রতি অনুরোধে সর্বোচ্চ ফাইলের সংখ্যা: ৩,০০০টি
  • প্রতি ফাইলে সর্বোচ্চ পৃষ্ঠা সংখ্যা: ১,০০০ পৃষ্ঠা
  • প্রতিটি ফাইলের সর্বোচ্চ আকার: ৫০ মেগাবাইট

নথি: টোকেনাইজেশন

পিডিএফ টোকেনাইজেশন

পিডিএফকে ছবি হিসেবে গণ্য করা হয়, তাই পিডিএফের প্রতিটি পৃষ্ঠাকেও ছবির মতোই টোকেনাইজ করা হয়।

এছাড়াও, পিডিএফ-এর খরচ জেমিনি ইমেজ প্রাইসিং অনুসরণ করে। উদাহরণস্বরূপ, যদি আপনি একটি জেমিনি এপিআই কলে দুই পৃষ্ঠার একটি পিডিএফ অন্তর্ভুক্ত করেন, তাহলে আপনাকে দুটি ইমেজ প্রসেস করার জন্য একটি ইনপুট ফি দিতে হবে।

নথি: সর্বোত্তম অনুশীলন

পিডিএফ ব্যবহার করার সময়, সর্বোত্তম ফলাফলের জন্য নিম্নলিখিত সেরা অনুশীলন এবং তথ্যগুলো অনুসরণ করুন:

  • আপনার প্রম্পটে যদি একটিমাত্র পিডিএফ থাকে, তাহলে অনুরোধে টেক্সট প্রম্পটের আগে পিডিএফটি রাখুন।
  • আপনার কাছে যদি একটি দীর্ঘ নথি থাকে, তবে সেটিকে প্রক্রিয়াকরণের জন্য একাধিক PDF-এ বিভক্ত করার কথা বিবেচনা করতে পারেন।
  • স্ক্যান করা ছবির টেক্সট ব্যবহার করার পরিবর্তে, টেক্সটকে টেক্সট হিসেবে রেন্ডার করে তৈরি করা পিডিএফ ব্যবহার করুন। এই ফরম্যাটটি নিশ্চিত করে যে টেক্সটটি মেশিন-পঠনযোগ্য, ফলে স্ক্যান করা ছবির পিডিএফের তুলনায় মডেলের পক্ষে এটি সম্পাদনা, অনুসন্ধান এবং পরিচালনা করা সহজতর হয়। চুক্তিপত্রের মতো টেক্সট-বহুল নথি নিয়ে কাজ করার সময় এই পদ্ধতিটি সর্বোত্তম ফলাফল প্রদান করে।

নথি: সীমাবদ্ধতা

যদিও জেমিনি মাল্টিমোডাল মডেলগুলো অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবুও এই মডেলগুলোর সীমাবদ্ধতাগুলো বোঝা গুরুত্বপূর্ণ:

  • স্থানিক যুক্তি : মডেলগুলো পিডিএফ-এ থাকা টেক্সট বা অবজেক্ট নির্ভুলভাবে শনাক্ত করতে পারে না। এগুলো হয়তো শুধু অবজেক্টের আনুমানিক সংখ্যাই দেখাতে পারে।
  • নির্ভুলতা : পিডিএফ ডকুমেন্টে হাতে লেখা পাঠ্য ব্যাখ্যা করার সময় মডেলগুলো বিভ্রমের শিকার হতে পারে।