דף זה תורגם על ידי Cloud Translation API.

ניסיון חוזר של פונקציות אסינכרוניות

במסמך הזה מוסבר איך לבקש מפונקציות אסינכרוניות (לא HTTP) ברקע לבצע ניסיון חוזר במקרה של כשל.

למה פונקציות מבוססות-אירועים לא מצליחות להסתיים

במקרים נדירים, פונקציה עשויה לצאת מוקדם מדי בגלל שגיאה פנימית, ובאופן כללי יכול להיות שהמערכת תנסה להפעיל אותה מחדש באופן אוטומטי או שלא.

בדרך כלל, פונקציה מבוססת-אירועים עלולה להיכשל בהשלמה בגלל שגיאות שמוחזרות בקוד הפונקציה עצמו. הסיבות האפשריות לכך:

הפונקציה מכילה באג וזמן הריצה יוצר חריגה.
הפונקציה לא יכולה להגיע לנקודת קצה של שירות, או שהזמן הקצוב לתפוגה שלה מסתיים בזמן הניסיון לעשות זאת.
הפונקציה יוצרת בכוונה חריגה (לדוגמה, כשפרמטר לא עובר אימות).
פונקציית Node.js מחזירה הבטחה שנדחתה, או מעבירה ערך שאינו null לפונקציית קריאה חוזרת.

בכל אחד מהמקרים שלמעלה, הפונקציה תפסיק לפעול ותחזיר שגיאה. לגורמים להפעלת אירועים שיוצרים את ההודעות יש מדיניות ניסיון חוזר שאפשר להתאים אישית כדי לענות על הצרכים של הפונקציה.

סמנטיקה של ניסיון חוזר

‫Cloud Functions מספקת הפעלה של פונקציה מבוססת-אירועים לפחות פעם אחת לכל אירוע שמופק ממקור אירועים. כברירת מחדל, אם הפעלה של פונקציה מסתיימת בשגיאה, הפונקציה לא מופעלת שוב והאירוע מושמט. כשמפעילים ניסיונות חוזרים בפונקציה מבוססת-אירועים, מערכת Cloud Functions מנסה להפעיל שוב פונקציה שנכשלה עד שהיא מסתיימת בהצלחה או עד שחלון הניסיונות החוזרים מסתיים.

אזהרה: הגדרת האפשרות 'ניסיון חוזר במקרה של כשל' גורמת לניסיון חוזר של הפונקציה שוב ושוב עד שהיא מופעלת בהצלחה או עד שחלף פרק הזמן המקסימלי לניסיון חוזר, שיכול להיות כמה ימים. אם הכשל נובע מבאג או מכל סוג אחר של שגיאה קבועה, הפונקציה עלולה להיתקע בלולאת ניסיון חוזר. ההגדרה הזו מתאימה לשימוש רק כשמטפלים בכשלים זמניים (כמו נקודת קצה לא אמינה או פסק זמן לסירוגין), ורק אחרי שמבצעים בדיקת עומס של הקוד בלי להגדיר את המאפיין הזה. אם הפונקציה נתקעת בלולאת ניסיון חוזר, צריך לפרוס אותה מחדש או למחוק אותה כדי להפסיק את ההפעלה.

כשניסיונות חוזרים לא מופעלים בפונקציה (זו ברירת המחדל), הפונקציה תמיד מדווחת שהיא בוצעה בהצלחה, וקוד התגובה 200 OK עשוי להופיע ביומנים שלה. זה קורה גם אם הפונקציה נתקלה בשגיאה. כדי להבהיר מתי הפונקציה נתקלת בשגיאה, חשוב לדווח על שגיאות בצורה מתאימה.

הגדרת ניסיונות חוזרים מקוד הפונקציה

באמצעות Cloud Functions for Firebase, אפשר להפעיל ניסיונות חוזרים בקוד של פונקציה. כדי לעשות את זה לאירוע ברקע, כמו יצירה של מסמך חדש ב-Firestore, מגדירים את האפשרות failurePolicy (דור ראשון) או retry (דור שני) של המדיניות ל-true:

דור ראשון

exports.docCreated = functions
  .runWith({
    // retry on failure
    failurePolicy: true,
  })
  .firestore.document("my-collection/{docId}")
  .onCreate((change, context) => {
    /* ... */
  });

דור שני

const { onDocumentCreated } = require("firebase-functions/firestore");

exports.docCreated = onDocumentCreated(
  {
    // retry on failure
    retry: true,
  },
  "my-collection/{docId}",
  (event) => {
    /* ... */
  },
);

ההגדרה true כפי שמוצג מגדירה פונקציה לניסיון חוזר במקרה של כשל.

חלון ניסיון חוזר

בפונקציות מהדור השני, חלון הניסיון החוזר הזה יפוג אחרי 24 שעות. התוקף של פונקציות מהדור הראשון יפוג אחרי 7 ימים. ‫Cloud Functions מנסה שוב להפעיל פונקציות חדשות מבוססות-אירועים באמצעות אסטרטגיה של השהיה מעריכית לפני ניסיון חוזר (exponential backoff), עם השהיה הולכת וגדלה של בין 10 ל-600 שניות. המדיניות הזו חלה על פונקציות חדשות בפעם הראשונה שפורסים אותן. השינוי לא חל באופן רטרואקטיבי על פונקציות קיימות שנפרסו לפני שהשינויים שמתוארים בנתוני הגרסה האלה נכנסו לתוקף, גם אם פורסים מחדש את הפונקציות.

שיטות מומלצות

בקטע הזה מתוארות שיטות מומלצות לשימוש בניסיונות חוזרים.

שימוש בניסיון חוזר לתיקון שגיאות חולפות

הפונקציה מופעלת מחדש שוב ושוב עד שהיא מופעלת בהצלחה, ולכן צריך להסיר מהקוד שגיאות קבועות כמו באגים באמצעות בדיקות לפני שמפעילים ניסיונות חוזרים. השימוש בנסיונות חוזרים מומלץ לטיפול בכשלים לסירוגין או זמניים, שיש סיכוי גבוה שייפתרו אחרי ניסיון חוזר, כמו נקודת קצה של שירות לא יציב או פסק זמן.

הגדרת תנאי סיום כדי למנוע לולאות אינסופיות של ניסיונות חוזרים

מומלץ להגן על הפונקציה מפני לולאה אינסופית כשמשתמשים בניסיונות חוזרים. כדי לעשות את זה, צריך להוסיף תנאי סיום מוגדר היטב לפני שהפונקציה מתחילה לעבד. שימו לב שהטכניקה הזו פועלת רק אם הפונקציה מתחילה לפעול בהצלחה ויכולה להעריך את תנאי הסיום.

גישה פשוטה ויעילה היא להשליך אירועים עם חותמות זמן ישנות יותר מזמן מסוים. כך אפשר למנוע ביצועים מוגזמים אם הכשלים נמשכים או ארוכים מהצפוי.

לדוגמה, קטע הקוד הזה מבטל את כל האירועים שהתרחשו לפני יותר מ-10 שניות:

const eventAgeMs = Date.now() - Date.parse(event.timestamp);
const eventMaxAgeMs = 10000;
if (eventAgeMs > eventMaxAgeMs) {
  console.log(`Dropping event ${event} with age[ms]: ${eventAgeMs}`);
  callback();
  return;
}

שימוש ב-`catch` עם Promises

אם הפעלתם ניסיונות חוזרים בפונקציה, כל שגיאה שלא טופלה תפעיל ניסיון חוזר. מוודאים שהקוד מתעד שגיאות שלא אמורות להוביל לניסיון חוזר.

דוגמה להטמעה תקינה:

return doFooAsync().catch((err) => {
    if (isFatal(err)) {
        console.error(`Fatal error ${err}`);
    }
    return Promise.reject(err);
});

יצירת פונקציות אידמפוטנטיות מבוססות-אירועים שאפשר לנסות להפעיל מחדש

פונקציות מבוססות-אירועים שאפשר לבצע ניסיון חוזר שלהן צריכות להיות אידמפוטנטיות. ריכזנו כאן כמה הנחיות כלליות ליצירת פונקציה אידמפוטנטית:

הרבה ממשקי API חיצוניים (כמו Stripe) מאפשרים לספק מפתח אידמפוטנטיות כפרמטר. אם אתם משתמשים ב-API כזה, עליכם להשתמש במזהה האירוע כמפתח האידמפוטנטיות.
אידמפוטנטיות פועלת היטב עם מסירה אחת לפחות, כי היא מאפשרת לנסות שוב בצורה בטוחה. לכן, שיטה מומלצת כללית לכתיבת קוד מהימן היא לשלב בין אידמפוטנטיות לבין ניסיונות חוזרים.
חשוב לוודא שהקוד שלכם הוא אידמפוטנטי באופן פנימי. לדוגמה:
- מוודאים שהמוטציות יכולות לקרות יותר מפעם אחת בלי לשנות את התוצאה.
- שאילתת מצב מסד הנתונים בעסקה לפני שינוי המצב.
- חשוב לוודא שכל ההשלכות הן אידמפוטנטיות.
הטלת בדיקה טרנזקציונלית מחוץ לפונקציה, ללא תלות בקוד. לדוגמה, אפשר לשמור את המצב במקום כלשהו שבו מתועד שמזהה אירוע מסוים כבר עבר עיבוד.
טיפול בקריאות כפולות לפונקציות מחוץ לפס. לדוגמה, אפשר להגדיר תהליך ניקוי נפרד שינקה אחרי קריאות כפולות לפונקציות.

הגדרת מדיניות הניסיון החוזר

בהתאם לצרכים של הפונקציה, יכול להיות שתרצו להגדיר את מדיניות הניסיון החוזר ישירות. כך תוכלו להגדיר כל שילוב של האפשרויות הבאות:

לקצר את חלון הניסיון החוזר מ-7 ימים ל-10 דקות בלבד.
שינוי הזמן המינימלי והמקסימלי להשהיה באסטרטגיית הניסיון החוזר עם השהיה אקספוננציאלית.
משנים את אסטרטגיית הניסיון החוזר לניסיון חוזר מיידי.
מגדירים נושא להודעות ללא מוצא.
הגדרת מספר מקסימלי ומינימלי של ניסיונות מסירה.

כדי להגדיר את מדיניות הניסיון החוזר:

כתיבת פונקציית HTTP.
משתמשים ב-Pub/Sub API כדי ליצור מינוי Pub/Sub, ומציינים את כתובת ה-URL של הפונקציה כיעד.

מידע נוסף על הגדרה ישירה של Pub/Sub זמין בPub/Subמאמר בנושא טיפול בכשלים.

ניסיון חוזר של פונקציות אסינכרוניות קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.