יצירת טקסט מהנחיות במגוון מודלים באמצעות Gemini API


כשאתם קוראים ל-Gemini API מהאפליקציה באמצעות SDK של Vertex AI in Firebase, תוכלו לבקש ממודל Gemini ליצור טקסט על סמך קלט רב-מודלי. הנחיות מולטימודיות יכולות לכלול כמה מודלים (או סוגי קלט), כמו טקסט עם תמונות, קובצי PDF, קובצי טקסט רגילים, וידאו ואודיו.

בכל בקשה עם מודלים מרובים, תמיד צריך לציין את הפרטים הבאים:

כדי לבדוק הנחיות במגוון מישורים ולבצע בהן שינויים, מומלץ להשתמש ב-Vertex AI Studio.

לפני שמתחילים

אם עדיין לא עשיתם זאת, כדאי לעיין במדריך למתחילים, שבו מוסבר איך מגדירים את פרויקט Firebase, מחברים את האפליקציה ל-Firebase, מוסיפים את ה-SDK, מאתחלים את השירות Vertex AI ויוצרים מכונה של GenerativeModel.

יצירת טקסט מטקסט ומתמונה אחת יצירת טקסט מטקסט וממספר תמונות יצירת טקסט מטקסט וסרטון

קובצי מדיה לדוגמה

אם עדיין אין לכם קובצי מדיה, תוכלו להשתמש בקבצים הבאים שזמינים לכולם. מאחר שהקבצים האלה מאוחסנים בקטגוריות שלא נמצאות בפרויקט ב-Firebase, צריך להשתמש בפורמט https://storage.googleapis.com/BUCKET_NAME/PATH/TO/FILE לכתובת ה-URL.

יצירת טקסט מטקסט ומתמונה אחת

לפני שמנסים את הדוגמה הזו, חשוב לוודא שמילאתם את הקטע לפני שמתחילים במדריך הזה.

אפשר להפעיל את Gemini API באמצעות הנחיות במגוון מודלים, שכוללות גם טקסט וגם קובץ יחיד (כמו תמונה, כפי שמוצג בדוגמה הזו). לשיחות האלה, צריך להשתמש במודל שתומך במדיה בהנחיות (כמו Gemini 2.0 Flash).

חשוב לקרוא את הדרישות וההמלצות לגבי קובצי קלט.

בוחרים אם להעביר את התשובה בסטרימינג (generateContentStream) או להמתין לתשובה עד שהתוצאה כולה נוצרת (generateContent).

סטרימינג

כדי לקבל אינטראקציות מהירות יותר, אפשר לא להמתין לתוצאה המלאה של יצירת המודל, אלא להשתמש בסטרימינג כדי לטפל בתוצאות חלקיות.

ללא סטרימינג

לחלופין, אפשר להמתין לקבלת התוצאה המלאה במקום להפעיל את הסטרימינג. התוצאה תוחזר רק אחרי שהמודל ישלים את כל תהליך היצירה.

כאן מוסבר איך בוחרים מודל, ואם רוצים גם מיקום, שמתאימים לתרחיש לדוגמה ולאפליקציה שלכם.

יצירת טקסט מטקסט וממספר תמונות

לפני שמנסים את הדוגמה הזו, חשוב לוודא שמילאתם את הקטע לפני שמתחילים במדריך הזה.

אפשר להפעיל את Gemini API באמצעות הנחיות במגוון מודלים, שכוללות גם טקסט וגם כמה קבצים (כמו תמונות, כפי שמוצג בדוגמה הזו). לשיחות האלה, צריך להשתמש במודל שתומך במדיה בהנחיות (כמו Gemini 2.0 Flash).

חשוב לקרוא את הדרישות וההמלצות לגבי קובצי קלט.

בוחרים אם להעביר את התשובה בסטרימינג (generateContentStream) או להמתין לתשובה עד שהתוצאה כולה נוצרת (generateContent).

סטרימינג

כדי לקבל אינטראקציות מהירות יותר, אפשר לא להמתין לתוצאה המלאה של יצירת המודל, אלא להשתמש בסטרימינג כדי לטפל בתוצאות חלקיות.

ללא סטרימינג

לחלופין, אפשר להמתין לקבלת התוצאה המלאה במקום להשתמש בסטרימינג. התוצאה תוחזר רק אחרי שהמודל ישלים את כל תהליך היצירה.

כאן מוסבר איך בוחרים מודל, ואם רוצים גם מיקום, שמתאימים לתרחיש לדוגמה ולאפליקציה שלכם.

יצירת טקסט מטקסט וסרטון

לפני שמנסים את הדוגמה הזו, חשוב לוודא שפעלתם לפי ההוראות בקטע לפני שמתחילים במדריך הזה.

אפשר להפעיל את Gemini API באמצעות הנחיות מרובות-מודות שכוללות גם טקסט וגם קובצי וידאו (כמו בדוגמה הזו). בשיחות האלה, צריך להשתמש במודל שתומך במדיה בהנחיות (כמו Gemini 2.0 Flash).

חשוב לקרוא את הדרישות וההמלצות לגבי קובצי קלט.

בוחרים אם להעביר את התשובה בסטרימינג (generateContentStream) או להמתין לתשובה עד שהתוצאה כולה נוצרת (generateContent).

סטרימינג

כדי לקבל אינטראקציות מהירות יותר, אפשר לא להמתין לתוצאה המלאה של יצירת המודל, אלא להשתמש בסטרימינג כדי לטפל בתוצאות חלקיות.

ללא סטרימינג

לחלופין, אפשר להמתין לקבלת התוצאה המלאה במקום להפעיל את הסטרימינג. התוצאה תוחזר רק אחרי שהמודל ישלים את כל תהליך היצירה.

כאן מוסבר איך בוחרים מודל, ואם רוצים גם מיקום, שמתאימים לתרחיש לדוגמה ולאפליקציה שלכם.

דרישות והמלצות לגבי קובצי קלט

במאמר קבצי קלט נתמכים ודרישות ל-Vertex AI Gemini API מוסבר על הנושאים הבאים:

  • אפשרויות שונות לשליחת קובץ בבקשה
  • סוגי קבצים נתמכים
  • סוגי ה-MIME הנתמכים ואופן הציון שלהם
  • דרישות ושיטות מומלצות לגבי קבצים ובקשות במגוון מודלים

מה עוד אפשר לעשות?

לנסות יכולות אחרות

איך שולטים ביצירת תוכן

אפשר גם להתנסות בהנחיות ובהגדרות של מודלים באמצעות Vertex AI Studio.

מידע נוסף על המודלים הנתמכים

כאן תוכלו לקרוא מידע נוסף על המודלים הזמינים לתרחישי שימוש שונים, על המכסות ועל התמחור שלהם.


שליחת משוב על חוויית השימוש ב-Vertex AI in Firebase