במהלך מחזור החיים של מכונה וירטואלית (VM) או מכונת Bare Metal, יכולים להתרחש מספר אירועים במכונת המארח שבה המכונה שלכם פועלת. אירוע במארח יכול לכלול תחזוקה שוטפת של תשתית Compute Engine, או, במקרים נדירים, שגיאה במארח. אתם יכולים להגדיר את מדיניות תחזוקת המארח כדי לבחור איך מופעלים מופעי מחשוב במהלך אירוע במארח או אחריו.
כברירת מחדל, רוב המקרים מוגדרים להעברה בזמן אמת במהלך אירועים במארח. בכל סדרות המכונות חוץ מסדרת Z3, אפשר לשנות את ההתנהגות הזו ולהגדיר באופן מפורש את המכונות להפסיק את הפעולה ולהפעיל אותן מחדש (אופציונלי).
חלק מהמכונות הווירטואליות לחישוב לא תומכות במיגרציה פעילה, למשל:
- מכונות H4D
- מקרים של Bare Metal
- מכונות עם מעבדי GPU מצורפים
- מופעי Z3 עם יותר מ-18 TiB של Titanium SSD מצורף.
המופעים האלה מופעלים במהלך אירועים של המארח. מידע נוסף זמין במאמר בנושא התנהגויות של תחזוקה והפעלה מחדש.
סוגי אירועים של מארחים
יש שני סוגים של אירועים של מארחים, שמתוארים בפירוט רב יותר בקטעים הבאים:
אם המכונה לא מגיבה, יכול להיות שהמערכת תפעיל מחדש את המכונה או תסגור אותה.
אירועי תחזוקה
אירוע תחזוקה מתרחש כש-Compute Engine צריך לבצע פעולת תחזוקה או תיקון שמחייבת להעביר מכונות וירטואליות משרת המארח. אם מפעילים את מדיניות תחזוקת המארח של מיגרציה פעילה עבור סוג מכונה נתמך, Compute Engine מעביר את המכונה למארח חדש, ואין שיבושים מינימליים באפליקציה.
ב-Compute Engine מתבצעים גם שדרוגים קלים של היפר-ויזורים ורשתות ברקע, בלי להפריע לפעילות, על ידי שמירת המכונה באותו מארח.
ההתנהגות של מופע במהלך אירוע תחזוקה יכולה להשתנות בהתאם לדיירות של המופע ולסוג המכונה.
במכונות וירטואליות עם דייר יחיד, התדירות המשוערת של אירועי תחזוקה מתוכננת של המארח היא כל 4 עד 6 שבועות. התמיכה במיגרציה פעילה תלויה במדיניות התחזוקה של המארח של המכונה הווירטואלית עם דייר יחיד.
אפשר למצוא מידע על התנהגות התחזוקה של כל סוג מכונה בדף של משפחת המכונות המתאימה, באופן הבא:
- C series:
- C2 ו-C2D: משפחת מכונות שמותאמת לצריכת מעבד גבוהה
- כל שאר סדרות C: משפחת מכונות לשימוש כללי
- סדרות E, N ו-T: משפחת מכונות לשימוש כללי
- H series: משפחת מכונות וירטואליות מותאמת לצריכת מעבד גבוהה (compute-optimized)
- סדרות M ו-X: משפחת מכונות שעברה אופטימיזציה לזיכרון
- סדרת Z: משפחת מכונות שעברה אופטימיזציה לאחסון
למשפחות של מכונות שעברו אופטימיזציה למעבד גרפי, אפשר לעיין בדפים הבאים:
- יחידות GPU: טיפול באירועי תחזוקה של מארח GPU.
- TPU: הכנה לאירועי תחזוקה במסמכי Cloud TPU.
שגיאות שקשורות למארח
שגיאה במארח (compute.instances.hostError) מציינת שהייתה בעיה בחומרה או בתוכנה במכונה הפיזית או בתשתית של מרכז הנתונים שמארחים את מופע המחשוב שלכם, שגרמה לקריסת המופע. שגיאת מארח שכוללת כשל מוחלט בחומרה או בעיות אחרות בחומרה עשויה למנוע מיגרציה פעילה של המופע.
אם המכונה שלכם מוגדרת להפעלה מחדש אוטומטית, שזו הגדרת ברירת המחדל, מערכת Compute Engine מפעילה מחדש את המכונה, בדרך כלל תוך שלוש דקות מהרגע שבו זוהתה השגיאה. בהתאם לבעיה, ההפעלה מחדש עשויה להימשך עד 5.5 דקות.
לפעמים, יכול להיות שמופע של מחשוב לא יגיב לפני שמוצגת שגיאת מארח. כדי לקצר את משך הזמן ש-Compute Engine ממתין לפני הפעלה מחדש או סיום של המכונה, אפשר להגדיר את הזמן הקצוב לתפוגה של שחזור שגיאות במארח. מידע נוסף מופיע במאמר בנושא הגדרת מדיניות זמינות.
כשלים בחומרה ובתוכנה יכולים לקרות מדי פעם, אבל הם נדירים. כדי להגן על האפליקציות והשירותים שלכם מפני אירועי מערכת שעלולים לשבש את הפעילות, מומלץ לעיין במקורות המידע הבאים:
סקירה כללית של מדיניות תחזוקת המארחים
מדיניות התחזוקה של המארח של מופע קובעת את אופן הפעולה שלו במהלך האירועים הבאים של המארח:
- אירוע תחזוקה
- אירוע שגיאה במארח או מופע שלא מגיב
אתם יכולים להגדיר את המקרים כך שהם ימשיכו לפעול במהלך תחזוקת המארח, בזמן ש-Compute Engine מעביר אותם בשידור חי למארח אחר, או שאתם יכולים לבחור להפסיק את המקרים במקום זאת.
אתם יכולים לשנות את מדיניות תחזוקת המארח של מופע על ידי הגדרת ההגדרות הבאות:
- התנהגות בזמן תחזוקה: האם המכונה מועברת בשידור חי או מושבתת בזמן אירוע תחזוקה.
- התנהגות בהפעלה מחדש: האם Compute Engine מפעיל מחדש את המכונה או מפסיק אותה אם היא קורסת, אם מתרחשת שגיאה במארח או אם היא לא מגיבה.
- זמן זיהוי שגיאה במארח: משך הזמן המקסימלי ש-Compute Engine ממתין לפני הפעלה מחדש של מכונה או סיום שלה אחרי זיהוי שהמכונה לא מגיבה.
אתם יכולים לעדכן את מדיניות תחזוקת המארח של מופע בכל שלב כדי לשלוט בהתנהגות של המופעים.
התנהגויות של תחזוקה והפעלה מחדש
כשמתרחש אירוע במארח, מופע החישוב יכול להשתמש במיגרציה פעילה, או שהמופע יכול להיות מופסק. אם מכונה מסוימת מסיימת את הפעולה שלה, אתם יכולים לבחור להפעיל אותה מחדש בעצמכם או להגדיר ש-Compute Engine יפעיל אותה מחדש באופן אוטומטי.
יכול להיות שסדרות המכונות הבאות לא תומכות במיגרציה פעילה, ובמקום זאת נדרש סיום במהלך אירועי המארח:
- מכונות Bare metal מופסקות ומופעלות מחדש, כלומר הן עשויות להיות מופעלות מחדש במארח אחר. פרטים נוספים זמינים במסמכי התיעוד בנושא 'חוויית תחזוקה' עבור סדרת המכונות. לדוגמה, למידע על סוגי מכונות Bare Metal מסוג C3, אפשר לעיין במאמר חוויית התחזוקה של מכונות C3.
- מכונות וירטואליות חסויות, למעט סוגי מכונות N2D עם פלטפורמות מעבד AMD EPYC Milan שמופעל בהן AMD SEV.
- Instances with GPUs
- Instances with TPUs
העברה פעילה
כברירת מחדל, רוב סוגי המופעים מוגדרים להעברה פעילה, למעט סוגי המופעים שצוינו בקטע הקודם.
במהלך מיגרציה פעילה, Compute Engine מעביר באופן אוטומטי את המכונה שלכם מאירוע תחזוקה בתשתית, והמכונה ממשיכה לפעול במהלך המיגרציה. יכול להיות שיהיו למופע שלכם תקופות קצרות של ירידה בביצועים, אבל בדרך כלל, הביצועים של רוב המופעים לא ישתנו באופן משמעותי. האפשרות הזו מתאימה במיוחד למקרים שבהם נדרשת זמינות מתמדת, ויש סבילות לתקופה קצרה של ירידה בביצועים.
כש-Compute Engine מעביר את המופע, הוא מדווח על אירוע מערכת שמתפרסם ברשימת הפעולות באזור וביומנים של אירועי המערכת. כדי לבדוק את האירוע הזה, אפשר לצפות בפעולות של Compute Engine באזור מסוים. סוג הפעולה של אירועי מיגרציה פעילה הוא:
compute.instances.migrateOnHostMaintenance
סיום והפעלה מחדש
אם אתם לא רוצים שהמופע שלכם יעבור מיגרציה פעילה, או אם סוג המופע לא תומך במיגרציה פעילה, אתם יכולים במקום זאת לאפשר ל-Cloud de Confiance by S3NS לעצור את המופע כשמתרחש אירוע במארח. במקרה כזה, אם מתרחש אירוע במארח, Compute Engine שולח אות כיבוי רך כדי להשבית את המכונה.
לאחר מכן המערכת ממתינה 60 שניות עד שהמופע נסגר בצורה נקייה, ומגדירה את סטטוס המופע ל-TERMINATED. אם המופע לא נסגר בצורה תקינה תוך 60 שניות, הוא יופסק בכוח.
האפשרות הזו מתאימה במיוחד אם המקרים שלכם דורשים ביצועים מקסימליים וקבועים, ואם האפליקציה הכוללת שלכם בנויה כך שהיא יכולה להתמודד עם כשלים או הפעלות מחדש של מקרים.
כש-Compute Engine מפסיק מופע בגלל אירוע במארח, הוא מדווח על אירוע מערכת שמתפרסם ברשימת הפעולות באזור וביומנים של אירועי המערכת. כדי לבדוק את האירוע הזה, אפשר לצפות בפעולות של Compute Engine באזור מסוים. לאירועי סיום של מופע יש את סוג הפעולה הבא:
compute.instances.terminateOnHostMaintenance
הפעלה מחדש אוטומטית
אם המכונה שלכם מוגדרת להיעצר כשמתרחש אירוע תחזוקה, או אם המכונה קורסת בגלל בעיה בציוד הבסיסי, מערכת Compute Engine יכולה להפעיל מחדש את המכונה באופן אוטומטי. המופע מופעל מחדש באותו שרת מארח, או מועבר לשרת אחר באותו אזור שלא משתתף באירוע התחזוקה.
כברירת מחדל, מערכת Compute Engine מנסה לשחזר מכונות עם דיסקים מקומיים של SSD שמצורפים אליהן למשך שעה. אם מגיעים למגבלת הזמן, מערכת Compute Engine מנסה להפעיל מחדש את המכונה בשרת מארח אחר באותו אזור.
כדי להגדיר הפעלה מחדש אוטומטית, מגדירים את השדה של מדיניות התחזוקה של המארח automaticRestart לערך true. ההגדרה הזו לא חלה אם המכונה הוצאה ממצב אונליין בגלל הפסקת חשמל אזורית או באמצעות פעולה ידנית, כמו קריאה ל-sudo shutdown במערכת ההפעלה של האורח.
כש-Compute Engine מפעיל מחדש את המופע באופן אוטומטי, הוא מדווח על אירוע מערכת שמתפרסם ברשימת הפעולות באזור. אפשר לבדוק את האירוע הזה על ידי צפייה בפעולות של Compute Engine באזור ספציפי. אירועים של הפעלה מחדש אוטומטית הם מסוג הפעולה הבא:
compute.instances.automaticRestart
התמדה של הדיסק אחרי סיום המופע
מכיוון ש-Persistent Disk ו-Hyperdisk הם אמצעי אחסון שמחוברים לרשת, כשמפעילים מחדש את המכונה, Compute Engine מחבר מחדש את דיסק האתחול ואת כל הדיסקים המשניים למכונה. הנתונים בדיסקים האלה נשמרים במהלך מיגרציה פעילה והפעלה מחדש של המכונה.
תזמון תחזוקה
Cloud de Confiance by S3NS מספקת תכונות שמאפשרות שליטה הדוקה יותר בתחזוקה.
אם משתמשים במשפחות מסוימות של מכונות, אפשר לציין העדפות תחזוקה ולקבל התראות על אירועי תחזוקה קרובים דרך Cloud Logging, שרת המטא-נתונים של המופע, הפקודה compute instances describe ב-CLI של gcloud או ה-method instances.describe בארכיטקטורת REST. כשמקבלים התראה, יש פרק זמן שבו אפשר להתחיל את התחזוקה המתוזמנת בשעה שבוחרים. אם לא תפעילו את התחזוקה המתוזמנת, אירוע התחזוקה יתרחש בסוף תקופת ההודעה, כלומר במועד המתוזמן שמופיע בהודעה.
אתם יכולים להשתמש בתכונות האלה בשילוב עם מדיניות התחזוקה של המארח כדי להתאים אישית את לוח הזמנים של התחזוקה כך שיתאים לעומס העבודה שלכם.