כשאתם קוראים ל-Gemini API מהאפליקציה באמצעות SDK של Vertex AI in Firebase, תוכלו להנחות את מודל Gemini ליצור טקסט על סמך קלט רב-מודלי. הנחיות מולטימודיות יכולות לכלול כמה מודלים (או סוגי קלט), כמו טקסט עם תמונות, קובצי PDF, סרטונים ואודיו.
כדי לבדוק הנחיות במגוון מישורים ולבצע בהן שינויים, מומלץ להשתמש ב-Vertex AI Studio.
לפני שמתחילים
אם עדיין לא עשיתם זאת, כדאי לעיין במדריך למתחילים בנושא ערכות ה-SDK של Vertex AI in Firebase. חשוב לוודא שביצעתם את כל הפעולות הבאות:
מגדירים פרויקט Firebase חדש או קיים, כולל שימוש בתוכנית התמחור Blaze והפעלת ממשקי ה-API הנדרשים.
קישור האפליקציה ל-Firebase, כולל רישום האפליקציה והוספת הגדרות Firebase לאפליקציה.
מוסיפים את ה-SDK ומפעילים את השירות Vertex AI ואת המודל הגנרטיבי באפליקציה.
אחרי שמחברים את האפליקציה ל-Firebase, מוסיפים את ה-SDK ומפעילים את השירות Vertex AI ואת המודל הגנרטיבי, אפשר לבצע קריאה ל-Gemini API.
ליצור טקסט מטקסט ומתמונה אחת
חשוב לוודא שהשלמתם את הקטע לפני שמתחילים במדריך לפני שמנסים את הדוגמה הזו.
אפשר לקרוא ל-Gemini API באמצעות הנחיות מרובות מצבים שכוללות גם טקסט וגם קובץ יחיד (כמו תמונה, כפי שמוצג בדוגמה הזו). לשיחות האלה צריך להשתמש במודל שתומך בהנחיות במגוון מודלים (כמו Gemini 1.5 Pro).
הקבצים הנתמכים כוללים תמונות, קובצי PDF, סרטונים, קובצי אודיו ועוד. חשוב לקרוא את הדרישות וההמלצות לגבי קובצי קלט.
בוחרים אם להעביר את התגובה בסטרימינג (generateContentStream
) או להמתין לתגובה עד שהתוצאה כולה תיווצר (generateContent
).
סטרימינג
כדי לקבל אינטראקציות מהירות יותר, אפשר לא להמתין לתוצאה המלאה של יצירת המודל, אלא להשתמש בסטרימינג כדי לטפל בתוצאות חלקיות.
ללא סטרימינג
לחלופין, אפשר להמתין לקבלת התוצאה המלאה במקום להעביר אותה בסטרימינג. התוצאה תוחזר רק אחרי שהמודל ישלים את כל תהליך היצירה.
בקישורים הבאים מוסבר איך לבחור מודל של Gemini ואופציונלית גם מיקום שמתאים לתרחיש לדוגמה ולאפליקציה שלכם.
יצירת טקסט מטקסט וממספר תמונות
לפני שמנסים את הדוגמה הזו, חשוב לוודא שמילאתם את הקטע לפני שמתחילים במדריך הזה.
אפשר להפעיל את Gemini API באמצעות הנחיות במגוון מודלים, שכוללות גם טקסט וגם כמה קבצים (כמו תמונות, כפי שמוצג בדוגמה הזו). לשיחות האלה צריך להשתמש במודל שתומך בהנחיות במגוון מודלים (כמו Gemini 1.5 Pro).
הקבצים הנתמכים כוללים תמונות, קובצי PDF, וידאו, אודיו ועוד. חשוב לקרוא את הדרישות וההמלצות לקובצי קלט.
בוחרים אם לשדר את התשובה (generateContentStream
) או להמתין לתשובה עד ליצירת התוצאה כולה (generateContent
).
סטרימינג
כדי לקבל אינטראקציות מהירות יותר, אפשר לא להמתין לתוצאה המלאה של יצירת המודל, אלא להשתמש בסטרימינג כדי לטפל בתוצאות חלקיות.
ללא סטרימינג
לחלופין, אתם יכולים להמתין עד שהתוצאה המלאה תהיה במקום סטרימינג. התוצאה מוחזרת רק אחרי שהמודל ישלים את כל תהליך היצירה.
איך בוחרים מודל Gemini, ואם רוצים גם מיקום, שמתאימים לתרחיש לדוגמה ולאפליקציה.
יצירת טקסט מטקסט וסרטון
לפני שמנסים את הדוגמה הזו, חשוב לוודא שמילאתם את הקטע לפני שמתחילים במדריך הזה.
אפשר להפעיל את Gemini API באמצעות הנחיות במגוון מודלים, שכוללות גם טקסט וגם סרטון אחד (כמו בדוגמה הזו). לשיחות האלה צריך להשתמש במודל שתומך בהנחיות במגוון מודלים (כמו Gemini 1.5 Pro).
חשוב לקרוא את הדרישות וההמלצות לגבי קובצי קלט.
בוחרים אם להעביר את התגובה בסטרימינג (generateContentStream
) או להמתין לתגובה עד שהתוצאה כולה תיווצר (generateContent
).
סטרימינג
כדי לקבל אינטראקציות מהירות יותר, אפשר לא להמתין לתוצאה המלאה של יצירת המודל, אלא להשתמש בסטרימינג כדי לטפל בתוצאות חלקיות.
ללא סטרימינג
לחלופין, אפשר להמתין לקבלת התוצאה המלאה במקום להעביר אותה בסטרימינג. התוצאה תוחזר רק אחרי שהמודל ישלים את כל תהליך היצירה.
איך בוחרים מודל Gemini, ואם רוצים גם מיקום, שמתאימים לתרחיש לדוגמה ולאפליקציה.
דרישות והמלצות לגבי קובצי קלט
למידע על סוגי הקבצים הנתמכים, על אופן ציון סוג ה-MIME ועל אופן לוודא שהקבצים והבקשות הרב-מודאליות עומדים בדרישות ופועלים בהתאם לשיטות המומלצות, אפשר לעיין במאמר קבצי קלט נתמכים ודרישות ל-Vertex AI Gemini API.
מה עוד אפשר לעשות?
- כך סופרים אסימונים לפני ששולחים הנחיות ארוכות למודל.
- מגדירים את Cloud Storage for Firebase כדי לכלול קבצים גדולים בבקשות מרובות מצבים באמצעות Cloud Storage כתובות URL. הקבצים יכולים לכלול תמונות, קובצי PDF, וידאו ואודיו.
- אפשר להתחיל לחשוב על הכנות לייצור, כולל הגדרה של Firebase App Check כדי להגן על Gemini API מפני ניצול לרעה של לקוחות לא מורשים.
ניסיון ביכולות אחרות של Gemini API
- ליצור שיחות עם זיכרון (צ'אט).
- יצירת טקסט מהנחיות בטקסט בלבד.
- ליצור פלט מובנה (כמו JSON) מהנחיות טקסט ומהנחיות מרובות מצבים.
- משתמשים בקריאה לפונקציה כדי לחבר מודלים גנרטיביים למערכות ולמידע חיצוניים.
איך שולטים ביצירת תוכן
- הסבר על תכנון הנחיות, כולל שיטות מומלצות, אסטרטגיות והנחיות לדוגמה.
- הגדרת פרמטרים של מודל כמו טמפרטורה ואסימוני פלט מקסימלי.
- שימוש בהגדרות הבטיחות כדי לשנות את הסבירות לקבלת תשובות שעשויות להיחשב כמזיקות.
מידע נוסף על המודלים של Gemini
כאן תוכלו לקרוא מידע נוסף על המודלים הזמינים לתרחישי שימוש שונים, ועל המכסות והתמחור שלהם.שליחת משוב על חוויית השימוש ב-Vertex AI in Firebase