מידע על שכפול דיסקים סינכרוני

‫ ‫Hyperdisk Balanced High Availability היא אפשרות אחסון שמאפשרת לכם להטמיע שירותים של זמינות גבוהה (HA) ב-Compute Engine. ‫Hyperdisk Balanced High Availability יוצר רפליקה של נתונים באופן סינכרוני בין שני אזורים באותו אזור, ומבטיח זמינות גבוהה של נתוני הדיסק עד לכשל אזורי אחד.

נפחי אחסון של Hyperdisk Balanced High Availability מיועדים לעומסי עבודה שדורשים יעד נמוך יותר להתאוששות מאסון (RPO) ומשך התאוששות (RTO). מידע נוסף על RPO ו-RTO זמין במאמר מושגי יסוד בתכנון התאוששות מאסון.

במסמך הזה מפורטת סקירה כללית על בניית שירותים עם זמינות גבוהה באמצעותHyperdisk Balanced High Availability.

כשמחליטים להשתמש ב- Hyperdisk Balanced High Availability, חשוב להשוות בין האפשרויות השונות להגדלת זמינות השירות ובין העלות, הביצועים והעמידות של ארכיטקטורות שירות שונות.

מידע על שכפול דיסקים סינכרוני

נפח אחסון מתמיד (Persistent Disk) אזורי או נפח Hyperdisk Balanced High Availability, שנקרא גם דיסק אזורי או דיסק עם שכפול סינכרוני, כולל אזור ראשי ואזור משני באזור שבו הוא מאחסן את נתוני הדיסק:

  • התחום הראשי הוא אותו תחום שבו נמצאת מכונת החישוב שאליה מצרפים את הדיסק.
  • אזור משני הוא אזור חלופי שתבחרו באותו אזור.

‫Compute Engine שומר עותקים של הדיסק בשני התחומים האלה. כשכותבים נתונים לדיסק, Compute Engine משכפל את הנתונים באופן סינכרוני לדיסקים המשוכפלים בשני התחומים כדי להבטיח זמינות גבוהה. הנתונים של כל רפליקה אזורית מפוזרים בין כמה מכונות פיזיות באזור כדי להבטיח עמידות. רפליקות של תחום מבטיחות שהנתונים בדיסק יישארו זמינים ומספקות הגנה מפני הפסקות זמניות באחד מהתחומים של הדיסק.

מצב הרפליקה לרפליקות אזוריות

מצב העותק של הדיסק עבור Hyperdisk Balanced High Availability מראה את המצב של עותק אזורי בהשוואה לתוכן של הדיסק. רפליקות אזוריות עבור הדיסקים שלכם נמצאות תמיד באחד מהסטטוסים הבאים:

  • מסונכרן: הרפליקה זמינה, מקבלת באופן סינכרוני את כל הפעולות שבוצעו בדיסק, והיא מעודכנת בכל הנתונים בדיסק.
  • השלמת פערים: הרפליקה זמינה אבל עדיין משלימה פערים עם הנתונים בדיסק מהרפליקה השנייה.
  • לא מסונכרן: הרפליקה אינה זמינה באופן זמני ואינה מסונכרנת עם הנתונים בדיסק.

כדי ללמוד איך לבדוק ולעקוב אחרי מצבי הרפליקה של הרפליקות האזוריות, אפשר לעיין במאמר בנושא מעקב אחרי מצבי הרפליקה של הדיסק.

מצבי רפליקציה של דיסקים אזוריים

בהתאם למצב של הרפליקות האזוריות הספציפיות, נפח האחסון של Regional Persistent Disk או נפח האחסון של Hyperdisk Balanced High Availability יכול להיות באחד ממצבי הרפליקציה הבאים:

  • שוכפל באופן מלא: העותקים בשני האזורים זמינים ומסונכרנים עם נתוני הדיסק העדכניים.
  • התעדכנות: הרפליקות האזוריות זמינות, אבל אחת מהן מתעדכנת עם נתוני הדיסק העדכניים.
  • ירידה ברמת השירות: אחד מהעותקים האזוריים הוא בסטטוס out of sync בגלל כשל או הפסקה זמנית בשירות.

אם סטטוס השכפול של הדיסק הוא catching up או degraded, אחת מהרפליקות האזוריות לא מתעדכנת בכל הנתונים. כל הפסקה זמנית בשירות במהלך הזמן הזה באזור של הרפליקה התקינה תגרום לדיסק להיות לא זמין עד שהאזור של הרפליקה התקינה ישוחזר.

כשנפח האחסון של Hyperdisk Balanced High Availability מתעדכן,Cloud de Confiance by S3NS מתחיל לתקן את הרפליקה האזורית שמתעדכנת. ‫Google ממליצה להמתין עד שהעותק המשוכפל באזור המושפע יתעדכן עם הנתונים בדיסק, ואז הסטטוס שלו ישתנה ל-Synced. אחרי שהעותק האזורי עובר למצב מסונכרן, הסטטוס של הדיסק האזורי חוזר למצב Fully replicated.

אם הסטטוס של הדיסק האזורי הוא catching up או degraded למשך תקופה ממושכת והוא לא עומד בדרישות ה-RPO של הארגון, מומלץ ליצור תמונות מצב של הרפליקה הראשית באחת מהדרכים הבאות:

  • מפעילים צילום תמונות מצב מתוזמן.
  • יוצרים קובץ snapshot ידני של

אחרי שיוצרים snapshot, אפשר ליצור דיסק חדש מסוגHyperdisk Balanced High Availability באמצעות ה-snapshot הזה כמקור. הפעולה הזו תשחזר את התמונה לדיסק החדש. הדיסק החדש מתחיל גם הוא במצב של שכפול מלא עם שכפול נתונים תקין.

במאמר קביעת מצב השכפול של דיסקים מוסבר איך בודקים את מצב השכפול של

נקודת ביקורת לשחזור רפליקה

נקודת ביקורת לשחזור רפליקה היא מאפיין של דיסק שמייצג את הנקודה העדכנית ביותר בזמן שבה הדיסק היה עקבי במקרה של קריסה, אחרי שכבר בוצעה רפליקציה מלאה שלו. ‫Compute Engine יוצר באופן אוטומטי נקודת ביקורת לשחזור של רפליקה יחידה לכל דיסק אזורי, ומתחזק אותה. כשדיסק משוכפל במלואו, Compute Engine ממשיך לרענן את נקודת הבדיקה שלו בערך כל 15 דקות כדי לוודא שהיא תישאר מעודכנת. כשסטטוס השכפול של הדיסק הוא degraded, אפשר ליצור ב-Compute Engine קובץ snapshot רגיל מנקודת השחזור של העותק המשוכפל של הדיסק. קובץ ה-snapshot הרגיל שמתקבל כולל את הנתונים מהגרסה העדכנית ביותר של הדיסק ששוכפלה באופן מלא, שנוצרה באופן עקבי אחרי קריסה.

בתרחישים נדירים, כשהדיסק פגום, יכול להיות שגם הרפליקה האזורית שסונכרנה עם הנתונים העדכניים בדיסק תיכשל לפני שהרפליקה שלא מסונכרנת תתעדכן. לא תוכלו לצרף את הדיסק בכוח למופעי Compute באף אחד מהאזורים. הדיסק המשוכפל לא יהיה זמין יותר, ותצטרכו להעביר את הנתונים לדיסק חדש. במקרים כאלה, אם אין לכם תמונות מצב רגילות קיימות לדיסק, עדיין תוכלו לשחזר את נתוני הדיסק מהרפליקה הלא שלמה באמצעות תמונת מצב רגילה שנוצרה מנקודת השחזור של הרפליקה.

‫Compute Engine יוצר באופן אוטומטי נקודות ביקורת לשחזור רפליקות לכל דיסק אזורי מסוג Persistent Disk או לכל דיסק מסוג Hyperdisk Balanced High Availability שמחובר. אנחנו לא גובים מכם תשלום נוסף על יצירת נקודות הבדיקה האלה. עם זאת, אתם מחויבים על אחסון ועל מופעי מחשוב רלוונטיים כשאתם משתמשים בנקודות הבדיקה האלה כדי להעביר את הדיסק האזורי שלכם לאזורים פעילים.

מידע נוסף על שחזור נתונים מדיסק אזורי באמצעות נקודת ביקורת לשחזור רפליקה

יתירות כשל של דיסק אזורי

במקרה של הפסקת שירות בתחום (zone), אי אפשר לגשת לתחום והמכונה הווירטואלית של Compute בתחום הזה לא יכולה לבצע פעולות קריאה או כתיבה בדיסק שלה. כדי לאפשר למכונה להמשיך לבצע פעולות קריאה וכתיבה בדיסק האזורי, Compute Engine מאפשר העברה של נתוני הדיסק לאזור אחר שבו יש לדיסק רפליקה. התהליך הזה נקרא מעבר לגיבוי בעת כשל.

תהליך המעבר לגיבוי כולל ניתוק של הרפליקה האזורית מהמופע באזור המושפע, ולאחר מכן חיבור של הרפליקה האזורית למופע חדש באזור המשני. ‫Compute Engine משכפל את הנתונים בדיסק באופן סינכרוני לאזור המשני כדי להבטיח יתירות כשל מהירה במקרה של כשל ברפליקציה יחידה.

יתירות כשל באמצעות מישור בקרה אזורי ספציפי לאפליקציה

מישור הבקרה האזורי הספציפי לאפליקציה הוא לא Cloud de Confiance by S3NS שירות. כשמעצבים ארכיטקטורות של שירותים עם זמינות גבוהה, צריך לבנות מישור בקרה אזורי משלכם שספציפי לאפליקציה. מישור הבקרה של האפליקציה קובע לאיזה מופע צריך לצרף את הדיסק האזורי ואיזה מופע הוא המופע הראשי הנוכחי.

כשמזוהה כשל במופע הראשי או במסד הנתונים של הדיסק האזורי, מישור הבקרה האזורי הספציפי לאפליקציה של ארכיטקטורת שירות ה-HA יכול להתחיל אוטומטית יתירות כשל למופע ההמתנה באזור המשני. במהלך המעבר לגיבוי, מישור הבקרה האזורי שספציפי לאפליקציה מצרף מחדש את הדיסק האזורי למופע הגיבוי באזור המשני. לאחר מכן, Compute Engine מפנה את כל התנועה למכונה הזו על סמך אותות של בדיקת תקינות.

זמן האחזור הכולל של המעבר לגיבוי, לא כולל זמן זיהוי הכשל, הוא סכום זמני האחזור הבאים:

  • פחות מדקה לצירוף דיסק אזורי למכונה במצב המתנה
  • הזמן שנדרש לאתחול האפליקציה ולשחזור אחרי קריסה

מידע נוסף זמין במאמר בנושא הסבר על מישור הבקרה האזורי הספציפי לאפליקציה.

בדף אבני הבניין של התאוששות מאסון מוסבר על אבני הבניין שזמינות ב-Compute Engine.

מעבר לגיבוי בעקבות כשל באמצעות צירוף בכפייה

אחד היתרונות של Hyperdisk Balanced High Availability הוא שבמקרה הלא סביר של הפסקה זמנית בשירות אזורית, אפשר לבצע יתירות כשל ידנית של עומס העבודה לאזור אחר. כאשר יש הפסקה זמנית בשירות באזור המקורי, אי אפשר להשלים את פעולת ניתוק הדיסק עד לשחזור הרפליקה האזורית הזו. במקרה כזה, יכול להיות שתצטרכו לצרף את הרפליקה המשנית האזורית למכונת חישוב חדשה בלי לנתק את הרפליקה הראשית האזורית מהמכונה הראשית. התהליך הזה נקרא צירוף בכפייה.

אם מופעלת מכונת חישוב באזור הראשי והיא לא זמינה, אפשר לצרף את הדיסק בכוח למכונה באזור המשני. כדי לבצע את המשימה הזו, צריך לבצע אחת מהפעולות הבאות:

  • מפעילים עוד מכונת חישוב באותו אזור שבו נמצא העותק של הדיסק האזורי שאתם מצרפים בכוח.
  • תחזוקה של מכונת מחשוב במצב המתנה פעיל באותו תחום. המתנה פעילה היא מכונה פעילה שזהה למכונה באזור הראשי. בשני המקרים יש את אותם נתונים.

המערכת של Compute Engine מבצעת את פעולת הצירוף הכפוי תוך פחות מדקה. היעד למשך ההתאוששות (RTO) הכולל תלוי לא רק ביתירות כשל של האחסון (הצירוף הכפוי של הדיסק האזורי), אלא גם בגורמים אחרים, כולל:

  • האם צריך ליצור קודם מכונה משנית
  • משך הזמן שנדרש למערכת הקבצים הבסיסית לזיהוי כונן שמחובר בזמן שהמחשב פועל
  • זמן השחזור של האפליקציות המתאימות

למידע נוסף על ביצוע מעבר לגיבוי בעת כשל של מופע Compute באמצעות force-attach, אפשר לעיין במאמר בנושא מעבר לגיבוי בעת כשל של דיסק אזורי באמצעות force-attach.

‫Hyperdisk Balanced High Availability מעדיפים את הזמינות של עומס העבודה, כלומר יש פשרות בהגנה על הנתונים במקרה הלא סביר ששני העותקים של הדיסק לא יהיו זמינים בו-זמנית. מידע נוסף זמין במאמר בנושא ניהול כשלים בדיסקים אזוריים.

מגבלות

בקטעים הבאים מפורטות המגבלות שחלות עלHyperdisk Balanced High Availability.

מגבלות כלליות על דיסקים אזוריים

מגבלות של נקודות ביקורת לשחזור רפליקות

  • נקודת ביקורת לשחזור רפליקה היא חלק מהמטא-נתונים של המכשיר, ולא מוצגים בה נתונים מהדיסק. אפשר להשתמש בנקודת הבדיקה רק כמנגנון ליצירת תמונת מצב של הדיסק הפגום. אחרי שיוצרים את תמונת המצב באמצעות נקודת הבדיקה, אפשר להשתמש בתמונת המצב כדי לשחזר את הנתונים.
  • אפשר ליצור קובצי snapshot מנקודת שחזור של עותק משוכפל רק כשהדיסק פגום.
  • ‫Compute Engine מרענן את נקודת הבדיקה לשחזור העותק של הדיסק רק כשהדיסק משוכפל במלואו.
  • ‫Compute Engine שומר רק נקודת שחזור אחת של רפליקה לדיסק, ושומר רק את הגרסה העדכנית של נקודת השחזור הזו.
  • אי אפשר לראות את חותמות הזמן המדויקות של היצירה והרענון של נקודת ביקורת לשחזור רפליקה.
  • אפשר ליצור תמונת מצב מנקודת הבדיקה לשחזור הרפליקה רק באמצעות Compute Engine API.

המאמרים הבאים