ניטור תקינות המערכת באמצעות Node Problem Detector

החל מאבן הדרך 77, מערכת ההפעלה שמותאמת לקונטיינרים כוללת את הסוכן Node Problem Detector. אתם יכולים להשתמש בתכונה הזו כדי לעקוב אחרי תקינות המערכת של מופעי COS. הכלי Node Problem Detector עוקב אחרי תקינות המופע ומדווח על מדדים שקשורים לתקינות ל-Cloud Monitoring, כולל מדדי קיבולת ושגיאות שאפשר להציג אותם באמצעות לוחות בקרה של Google Cloud Observability. המדדים שנאספים מהגדרת ברירת המחדל הם בחינם. ‫Google תשתמש במדדים מצטברים כדי להבין בעיות בצמתים ולשפר את המהימנות של מערכת ההפעלה שמותאמת לקונטיינרים.

הסוכן מוגדר מראש עם קבוצת המדדים לייצוא. בשלב הזה אין תמיכה בהתאמה אישית של מדדים שדווחו עבור הסוכן המובנה. Node Problem Detector היא תוכנת קוד פתוח. אפשר לבדוק את קוד המקור ואת ההגדרות במאגרי קוד המקור המתאימים.

הפעלת מעקב אחר תקינות

סוכן Node Problem Detector מושבת כברירת מחדל בזמן האתחול. כדי להפעיל את התכונה הזו, אתם יכולים להשתמש ב:

שימוש בסקריפט לטעינה בזמן ההפעלה

אפשר להפעיל את Node Problem Detector באמצעות סקריפט לטעינה בזמן ההפעלה.

שימוש ב-cloud-init

בדוגמה cloud-init מוסברות ההגדרות הבסיסיות של מכונה עם מערכת הפעלה שמותאמת לקונטיינרים. אפשר להשתמש ב-cloud-init כדי להפעיל מעקב אחר תקינות באמצעות cloud-configהדוגמה הבאה:

#cloud-config

runcmd:
- systemctl start node-problem-detector

שימוש במטא-נתונים

ב-Container-Optimized OS Milestone 88 ואילך, אפשר להפעיל את Node Problem Detector גם על ידי הגדרת הערך של google-monitoring-enabled ל-true בקטע של המטא-נתונים המותאמים אישית.

כדי להפעיל את המעקב כשיוצרים מופע:

gcloud compute instances create VM_NAME \
    --image=IMAGE \
    --image-project=cos-cloud \
    --metadata=google-monitoring-enabled=true

מחליפים את מה שכתוב בשדות הבאים:

  • VM_NAME: השם של המכונה הווירטואלית החדשה
  • IMAGE: גרסה ספציפית של תמונה ציבורית של מערכת הפעלה שמותאמת לקונטיינרים. לדוגמה, --image=cos-113-18244-85-29.

כדי להפעיל את המעקב במופע קיים:

gcloud compute instances add-metadata VM_NAME \
    --metadata=google-monitoring-enabled=true

מחליפים את VM_NAME בשם המכונה הווירטואלית.

החל מאבן הדרך 97, אפשר להפעיל מעקב במטא-נתונים של הפרויקט:

gcloud compute project-info add-metadata \
    --metadata google-monitoring-enabled=true

אחרי ההפעלה, השירות node-problem-detector יופעל.

שימוש במדיניות מוגדרת על ידי משתמש לגבי אורחים

מערכת הפעלה שמותאמת לקונטיינרים כוללת את OS Config agent, שמשתמש בכלי מערכת של מערכת ההפעלה כדי לשמור על המצב של המכונה הווירטואלית שצוין במדיניות האורח. פרטים על מדיניות אורחים זמינים במאמרים בנושא הפעלת הסוכן OS Config ויצירת מדיניות אורחים. מדיניות האורחים הבאה מאפשרת לסוכן Node problem detector לפעול בכל המקרים.

recipes:
- name: recipe-enable-npd
  desiredState: INSTALLED
  installSteps:
  - scriptRun:
      interpreter: SHELL
      script: |-
        #!/bin/bash
        systemctl start node-problem-detector

הצגת המדדים שנאספו

הכלי Node Problem Detector מדווח על רשימה של מדדים לגבי משאב במעקב במופע Compute Engine. המדדים מתועדים ברשימת המדדים של Monitoring, עם הקידומת compute.googleapis.com/guest/. אפשר לראות את המדדים שנאספו באמצעות Metrics Explorer ב-Monitoring:

  1. במסוף Cloud de Confiance , עוברים אל Monitoring או משתמשים בלחצן הבא:

    מעבר למעקב

  2. בחלונית הניווט של Monitoring, לוחצים על Metrics explorer.

  3. בסוג המשאב, בוחרים באפשרות Compute Engine VM instance.

  4. בוחרים מדד, למשל 'מספר הבעיות'.

  5. תרשימים ונתונים סטטיסטיים יופיעו בצד שמאל. כדי לראות את התוצאה של מופע ספציפי של מערכת הפעלה שמותאמת לקונטיינרים, מגדירים את המסנן ל-"instance_id=[INSTANCE_ID]", ומחליפים את [INSTANCE_ID] במזהה של המופע הרצוי.

השבתת מעקב אחר תקינות

כדי להשבית שירות שכבר הופעל דרך cloud-config או דרך סקריפט לטעינה בזמן ההפעלה, צריך להסיר את שלב systemctl start node-problem-detector ואז להפעיל מחדש את מופע מערכת הפעלה שמותאמת לקונטיינרים. אם ההגדרה מופעלת על ידי מטא-נתונים, מוודאים שהמפתח google-monitoring-enabled מוגדר לערך false.