מידע על שכפול דיסקים סינכרוני

‫Hyperdisk Balanced High Availability היא אפשרות אחסון שמאפשרת לכם להטמיע שירותים של זמינות גבוהה (HA) ב-Compute Engine. ‫Hyperdisk Balanced High Availability יוצר רפליקציה סינכרונית של נתונים בין שני אזורים באותו אזור, ומבטיח זמינות גבוהה של נתוני הדיסק במקרה של כשל אזורי אחד.

נפחי אחסון של Hyperdisk Balanced High Availability מיועדים לעומסי עבודה שדורשים יעד נמוך יותר להתאוששות מאסון (RPO) ומשך התאוששות (RTO). מידע נוסף על RPO ו-RTO זמין במאמר מושגי יסוד בתכנון התאוששות מאסון.

במסמך הזה מפורטת סקירה כללית על בניית שירותים עם זמינות גבוהה באמצעותHyperdisk Balanced High Availability.

כשמחליטים להשתמש ב- Hyperdisk Balanced High Availability, חשוב להשוות בין האפשרויות השונות להגדלת זמינות השירות, ובין העלות, הביצועים והעמידות של ארכיטקטורות שירות שונות.

מידע על שכפול דיסקים סינכרוני

Hyperdisk Balanced High Availability volume, שנקרא גם דיסק אזורי או דיסק עם שכפול סינכרוני, כולל אזור ראשי ואזור משני באזור שבו הוא מאחסן את נתוני הדיסק:

  • התחום הראשי הוא אותו תחום שבו נמצאת מכונת החישוב שאליה מצרפים את הדיסק.
  • אזור משני הוא אזור חלופי לבחירתכם באותו אזור.

‫Compute Engine שומר עותקים של הדיסק בשני התחומים האלה. כשכותבים נתונים לדיסק, Compute Engine משכפל את הנתונים באופן סינכרוני לדיסקים המשוכפלים בשני התחומים כדי להבטיח זמינות גבוהה. הנתונים של כל עותק אזורי מפוזרים בין כמה מכונות פיזיות באזור כדי להבטיח עמידות. רפליקות אזוריות מבטיחות שהנתונים בדיסק יישארו זמינים ומספקות הגנה מפני הפסקות זמניות באחד מאזורי הדיסק.

מצב הרפליקה לרפליקות אזוריות

מצב העותק של הדיסק עבור Hyperdisk Balanced High Availability מראה את המצב של עותק אזורי בהשוואה לתוכן של הדיסק. העותקים של הדיסקים שלכם באזורים נמצאים תמיד באחד מהסטטוסים הבאים של עותקי דיסקים:

  • מסונכרן: העותק הזמין מקבל באופן סינכרוני את כל הפעולות שבוצעו בדיסק, והוא מעודכן בכל הנתונים בדיסק.
  • השלמת פערים: העותק הזמין אבל עדיין משלים פערים בנתונים בדיסק מהעותק השני.
  • לא מסונכרן: העותק לא זמין באופן זמני ולא מסונכרן עם הנתונים בדיסק.

כדי ללמוד איך לבדוק ולעקוב אחרי מצבי הרפליקה של הרפליקות האזוריות, אפשר לעיין במאמר בנושא מעקב אחרי מצבי הרפליקה של הדיסק.

מצבי רפליקציה של דיסקים אזוריים

בהתאם למצב של העותקים האזוריים הספציפיים, נפח האחסון המתמיד האזורי או נפח האחסון של Hyperdisk Balanced High Availability יכול להיות באחד ממצבי השכפול הבאים:

  • שכפול מלא: העותקים בשני האזורים זמינים ומסונכרנים עם נתוני הדיסק העדכניים.
  • התעדכנות: הרפליקות האזוריות זמינות, אבל אחת מהן מתעדכנת עם נתוני הדיסק העדכניים.
  • ירידה ברמת השירות: אחד מהעותקים האזוריים הוא בסטטוס out of sync בגלל כשל או הפסקה זמנית בשירות.

אם סטטוס השכפול של הדיסק הוא catching up או degraded, אחת מהרפליקות האזוריות לא מתעדכנת בכל הנתונים. כל הפסקה בשירות במהלך הזמן הזה באזור של הרפליקה התקינה תגרום לדיסק להיות לא זמין עד שהאזור של הרפליקה התקינה ישוחזר.

כשנפח האחסון של Hyperdisk Balanced High Availability מתעדכן,Cloud de Confiance by S3NS מתחיל תהליך תיקון של העותק האזורי שמתעדכן. ‫Google ממליצה להמתין עד שהעותק המשוכפל באזור המושפע יתעדכן עם הנתונים בדיסק, ואז הסטטוס שלו ישתנה ל-Synced. אחרי שהעותק האזורי עובר למצב מסונכרן, הסטטוס של הדיסק האזורי משתנה חזרה למצב Fully replicated.

אם הסטטוס של הדיסק האזורי הוא catching up או degraded למשך תקופה ממושכת והוא לא עומד בדרישות ה-RPO של הארגון, מומלץ ליצור תמונות מצב של העותק הראשי באחת מהדרכים הבאות:

  • הפעלת צילום תמונות מצב מתוזמן.
  • יוצרים קובץ snapshot ידני שלדיסק אזורי של אחסון מתמיד (persistent disk) או של דיסק Hyperdisk Balanced High Availability.

אחרי שיוצרים snapshot, אפשר ליצור דיסק חדש מסוגהפעולה הזו תשחזר את התמונה לדיסק החדש. הדיסק החדש מתחיל גם הוא במצב של שכפול מלא עם שכפול נתונים תקין.

במאמר קביעת מצב השכפול של דיסקים מוסבר איך בודקים את מצב השכפול שלדיסק אזורי קבוע או דיסק Hyperdisk Balanced High Availability.

נקודת ביקורת לשחזור רפליקה

נקודת ביקורת לשחזור רפליקה היא מאפיין של דיסק שמייצג את הנקודה העדכנית ביותר בזמן שבה הדיסק שוכפל במלואו בצורה עקבית במקרה של קריסה. ‫Compute Engine יוצר באופן אוטומטי נקודת ביקורת לשחזור של עותק יחיד לכל דיסק אזורי, ומתחזק אותה. כשדיסק משוכפל במלואו, Compute Engine ממשיך לרענן את נקודת הבדיקה שלו בערך כל 15 דקות כדי לוודא שהיא תישאר מעודכנת. כשסטטוס השכפול של הדיסק הוא degraded, אפשר ליצור ב-Compute Engine קובץ snapshot רגיל מנקודת השחזור של העותק המשוכפל של הדיסק. קובץ ה-snapshot הרגיל שנוצר כולל את הנתונים מהגרסה העדכנית ביותר של הדיסק ששוכפל באופן מלא, שמתאימה למצב של קריסה.

בתרחישים נדירים, כשדיסק נכשל, יכול להיות שגם העותק האזורי שסונכרן עם הנתונים העדכניים של הדיסק ייכשל לפני שהעותק שלא מסונכרן יתעדכן. לא תוכלו לכפות את צירוף הדיסק למופעי Compute באף אחד מהאזורים. הדיסק המשוכפל לא יהיה זמין יותר, ותצטרכו להעביר את הנתונים לדיסק חדש. במקרים כאלה, אם אין לכם תמונות מצב רגילות קיימות של הדיסק, יכול להיות שעדיין תוכלו לשחזר את נתוני הדיסק מהעותק הלא שלם באמצעות תמונת מצב רגילה שנוצרה מנקודת השחזור של העותק.

‫Compute Engine יוצר באופן אוטומטי נקודות ביקורת לשחזור עותקים לכל דיסק Hyperdisk Balanced High Availability שמוצמד. אנחנו לא גובים מכם תשלום נוסף על יצירת נקודות הבדיקה האלה. עם זאת, אם משתמשים בנקודות הבדיקה האלה כדי להעביר את הדיסק האזורי לאזורים פעילים, יחולו חיובים על אחסון ועל שימוש במופעי מחשוב.

מידע נוסף על שחזור נתונים מדיסק אזורי באמצעות נקודת ביקורת לשחזור רפליקה

יתירות כשל של דיסקים אזוריים

במקרה של הפסקת פעילות בתחום (zone), אי אפשר לגשת לתחום והמכונה הווירטואלית בחישוב באותו תחום לא יכולה לבצע פעולות קריאה או כתיבה בדיסק שלה. כדי לאפשר למופע להמשיך לבצע פעולות קריאה וכתיבה בדיסק האזורי, Compute Engine מאפשר העברה של נתוני הדיסק לאזור השני שבו יש לדיסק העתק. התהליך הזה נקרא מעבר לגיבוי בעת כשל.

תהליך המעבר לגיבוי כולל ניתוק של העותק המשוכפל האזורי מהמופע באזור המושפע, ולאחר מכן חיבור של העותק המשוכפל האזורי למופע חדש באזור המשני. ‫Compute Engine משכפל את הנתונים בדיסק באופן סינכרוני לאזור המשני כדי להבטיח מעבר מהיר ליתירות כשל במקרה של כשל בשכפול יחיד.

יתירות כשל באמצעות מישור הבקרה האזורי הספציפי לאפליקציה

מישור הבקרה האזורי הספציפי לאפליקציה הוא לא Cloud de Confiance by S3NS שירות. כשמעצבים ארכיטקטורות של שירותים עם זמינות גבוהה, צריך לבנות מישור בקרה אזורי משלכם שספציפי לאפליקציה. מישור הבקרה של האפליקציה קובע לאיזה מופע צריך לצרף את הדיסק האזורי ואיזה מופע הוא המופע הראשי הנוכחי.

כשמזוהה כשל במופע הראשי או במסד הנתונים של הדיסק האזורי, רמת הבקרה האזורית הספציפית לאפליקציה של ארכיטקטורת שירות ה-HA יכולה להפעיל אוטומטית מעבר לגיבוי (failover) למופע ההמתנה באזור המשני. במהלך המעבר לגיבוי, רמת הבקרה האזורית הספציפית לאפליקציה מצרפת מחדש את הדיסק האזורי למופע ההמתנה באזור המשני. לאחר מכן, Compute Engine מפנה את כל התנועה למכונה הזו על סמך אותות של בדיקת תקינות.

זמן האחזור הכולל של המעבר לגיבוי, לא כולל זמן זיהוי הכשל, הוא סכום זמני האחזור הבאים:

  • פחות מדקה לצירוף דיסק אזורי למכונה במצב המתנה
  • הזמן שנדרש לאתחול האפליקציה ולשחזור אחרי קריסה

מידע נוסף זמין במאמר בנושא הסבר על מישור הבקרה האזורי הספציפי לאפליקציה.

בדף אבני הבניין של התאוששות מאסון מוסבר על אבני הבניין שזמינות ב-Compute Engine.

מעבר לגיבוי בעקבות כפיית צירוף

אחד היתרונות של Hyperdisk Balanced High Availability הוא שבמקרה הלא סביר של הפסקת חשמל אזורית, אפשר לבצע מעבר ידני של עומס העבודה לאזור אחר. אם יש הפסקת חשמל באזור המקורי, אי אפשר להשלים את פעולת ניתוק הדיסק עד לשחזור העותק האזורי. במקרה כזה, יכול להיות שתצטרכו לצרף את העותק המשני האזורי למכונת מחשוב חדשה בלי לנתק את העותק הראשי האזורי מהמכונה הראשית. התהליך הזה נקרא צירוף בכפייה.

אם מופעלת מכונת חישוב באזור הראשי והיא לא זמינה, אפשר לצרף את הדיסק בכוח למכונה באזור המשני. כדי לבצע את המשימה הזו, צריך לבצע אחת מהפעולות הבאות:

  • מפעילים עוד מכונת מחשוב באותו אזור שבו נמצאת העתק הדיסק האזורי שאתם מצרפים בכוח.
  • תחזוקה של מכונת מחשוב במצב המתנה פעיל באותו תחום. המתנה פעילה היא מכונה פעילה שזהה למכונה באזור הראשי. בשני המקרים יש את אותם נתונים.

המערכת של Compute Engine מבצעת את פעולת הצירוף הכפוי תוך פחות מדקה. היעד למשך ההתאוששות (RTO) הכולל תלוי לא רק ביתירות כשל של האחסון (הצירוף הכפוי של הדיסק האזורי), אלא גם בגורמים אחרים, כולל:

  • האם צריך ליצור קודם מכונה משנית
  • משך הזמן שנדרש למערכת הקבצים הבסיסית לזיהוי של כונן שצורף בזמן שהמחשב פועל
  • זמן השחזור של האפליקציות המתאימות

למידע נוסף על ביצוע מעבר לגיבוי בעת כשל של מופע מחשוב באמצעות force-attach, אפשר לעיין במאמר בנושא מעבר לגיבוי בעת כשל של דיסק אזורי באמצעות force-attach.

‫ מידע נוסף זמין במאמר בנושא ניהול כשלים בדיסקים אזוריים.

מגבלות

בקטעים הבאים מפורטות המגבלות שחלות עלHyperdisk Balanced High Availability.

מגבלות כלליות על דיסקים אזוריים

מגבלות של נקודות ביקורת לשחזור רפליקות

  • נקודת ביקורת לשחזור רפליקה היא חלק מהמטא-נתונים של המכשיר, והיא לא מציגה נתונים מהדיסק בפני עצמה. אפשר להשתמש בנקודת הבדיקה רק כמנגנון ליצירת תמונת מצב של הדיסק הפגום. אחרי שיוצרים את תמונת המצב באמצעות נקודת הבדיקה, אפשר להשתמש בתמונת המצב כדי לשחזר את הנתונים.
  • אפשר ליצור קובצי snapshot מנקודת ביקורת לשחזור רפליקה רק כשהדיסק פגום.
  • ‫Compute Engine מרענן את נקודת הבדיקה לשחזור העותק של הדיסק רק כשהדיסק משוכפל במלואו.
  • ‫Compute Engine שומר רק נקודת ביקורת אחת לשחזור רפליקה לדיסק, ושומר רק את הגרסה האחרונה של נקודת הביקורת הזו.
  • אי אפשר לראות את חותמות הזמן המדויקות של היצירה והרענון של נקודת ביקורת לשחזור רפליקה.
  • אפשר ליצור תמונת מצב מנקודת הבדיקה לשחזור העותק רק באמצעות Compute Engine API.

המאמרים הבאים