Laufwerkzustand überwachen

Sie können den Zustand eines Persistent Disk- oder Google Cloud Hyperdisk-Volumes prüfen, indem Sie den Messwert Status der Laufwerksleistung ansehen. Dieser Messwert gibt an, ob die Leistung des Laufwerks möglicherweise durch unerwünschte Ereignisse in Compute Engine beeinträchtigt wird.

Ein Problem, das sich auf den Status der Festplattenleistung auswirkt, ist möglicherweise auch im Personal Service Health-Dashboard (PSH) Ihres Projekts oder im Trusted Cloud by S3NS -Dienststatus-Dashboard zu sehen.

In diesem Dokument wird der Status der Festplattenleistung beschrieben und erläutert, wie Sie ihn zur Fehlerbehebung bei Leistungsproblemen verwenden können.

Wann sollte die Integrität einer Festplatte geprüft werden?

Wenn Sie ein Leistungsproblem mit einem Laufwerk feststellen, prüfen Sie den Zustand des Laufwerks anhand des Messwerts für den Laufwerksleistungsstatus. Der Messwert für den Status der Laufwerksleistung wird jede Minute aktualisiert und gibt die Laufwerksleistung der gesamten vorherigen Minute an. Eine Anleitung zum Prüfen des Laufwerkstatus finden Sie unter Laufwerksleistungsstatus ansehen.

In der folgenden Tabelle sind die möglichen Werte für den Status der Festplattenleistung zusammengefasst.

Status Bedeutung
Healthy Die Laufwerksleistung entspricht den Erwartungen.
Degraded Möglicherweise tritt vorübergehend eine höhere als erwartete E/A-Latenz auf.
Severely degraded Es treten hohe I/O-Latenz oder andere Fehler auf.

Wenn der Leistungsstatus nicht Healthy lautet, finden Sie unter Status verstehen weitere Informationen.

Wenn der Leistungsstatus Healthy ist, funktioniert die Festplatte normal und Sie müssen nach anderen Ursachen für das Leistungsproblem suchen. Prüfen Sie, ob Anwendungs- oder Betriebssystemfehler vorliegen, und sorgen Sie dafür, dass Ihre Festplatte richtig optimiert ist. Optimierungsrichtlinien finden Sie unter Hyperdisk optimieren und Persistent Disk optimieren.

Beziehung zwischen dem Laufwerkszustand und anderen Messwerten zur Laufwerksleistung

Der Zustand des Laufwerks, der durch den Messwert für den Leistungsstatus angegeben wird, gibt den internen Status des Laufwerks aus der Sicht von Google an. Wenn der Status eines Laufwerks Degraded oder Severely Degraded ist, liegt die Ursache immer in der Compute Engine-Infrastruktur.

Im Allgemeinen lässt sich der Zustand eines Laufwerks nicht durch Ändern der Arbeitslast ändern. In seltenen Fällen kann eine Änderung der Arbeitslast jedoch ein internes Problem auslösen. Es ist daher möglicherweise möglich, ein Problem durch Ändern der Arbeitslast zu beheben.

Informationen zu den anderen verfügbaren Leistungsmesswerten für Laufwerke finden Sie unter Leistungsmesswerte für Laufwerke prüfen.

Szenarien, die sich nicht auf den Status der Festplattenleistung auswirken

Der Status der Laufwerksleistung hat nichts mit Leistungsproblemen zu tun, die durch die folgenden Faktoren verursacht werden:

  • Unvollständige oder unzureichende Laufwerkoptimierung
  • Leistungsgrenze für das Laufwerk und den Maschinentyp (wenn der ausgewählte Maschinentyp die Leistungsanforderungen Ihrer Arbeitslast nicht erfüllen kann)
  • Erhöhte Belastung der Festplatte durch Arbeitslast-Traffic
  • Nutzer-, Anwendungs- oder Betriebssystemfehler
  • Volle oder beschädigte Laufwerke
  • Bei Hyperdisk- und Extreme Persistent Disk-Volumes sind die IOPS oder der Durchsatz nicht ausreichend bereitgestellt.

In diesen Fällen liegt es in Ihrer Verantwortung, die Leistung zu verbessern, z. B. durch Optimieren des Laufwerks, Hochskalieren der Arbeitslast, Ändern des Maschinentyps und Bereitstellen von mehr Kapazität, IOPS oder Durchsatz.

Festplattenzustand in Cloud Monitoring ansehen

Wenn Sie den Zustand einer Festplatte sehen möchten, erstellen Sie ein Diagramm im Metrics Explorer.

Erforderliche Rollen und Berechtigungen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Prüfen des Messwerts für den Status der Laufwerksleistung benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Diagramm im Metrics Explorer erstellen

Um ein Diagramm zu erstellen, erstellen Sie eine Abfrage mit der menügesteuerten Benutzeroberfläche, mit Monitoring Query Language (MQL) oder mit PromQL.

So visualisieren Sie den Zustand eines oder mehrerer Laufwerke in einem Diagramm:
  1. Rufen Sie in der Trusted Cloud Console die Seite  Metrics Explorer auf:

    Zum Metrics Explorer

    Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.

  2. Wählen Sie in der Symbolleiste der Trusted Cloud -Console Ihr Trusted Cloud -Projekt aus. Wählen Sie für App Hub-Konfigurationen das App Hub-Hostprojekt oder das Verwaltungsprojekt des für Apps aktivierten Ordners aus.
  3. Maximieren Sie im Element Messwert das Menü Messwert auswählen, geben Sie VM Instance in die Filterleiste ein und wählen Sie dann über die Untermenüs einen bestimmten Ressourcentyp und Messwert aus:
    1. Wählen Sie im Menü Aktive Ressourcen die Option VM-Instanz aus.
    2. Wählen Sie im Menü Aktive Messwertkategorien die Option Instanz aus.
    3. Wählen Sie im Menü Aktive Messwerte die Option Status der Laufwerksleistung aus.
    4. Klicken Sie auf Übernehmen.
    Der voll qualifizierte Name für diesen Messwert ist compute.googleapis.com/instance/disk/performance_status.
  4. Konfigurieren Sie, wie die Daten angezeigt werden.
    Aggregation deaktivieren. Achten Sie darauf, dass im Element Aggregation das erste Menü auf Nicht aggregiert und das zweite Menü auf Keine festgelegt ist.
    Wenn Sie den Zustand einer bestimmten Festplatte aufrufen möchten, filtern Sie nach device_name.

    Weitere Informationen zum Konfigurieren eines Diagramms finden Sie unter Messwerte bei Verwendung von Metrics Explorer auswählen.

MQL

  1. Öffnen Sie den Abfrageeditor. Folgen Sie dazu der Anleitung unter MQL-Abfragen schreiben.

  2. Geben Sie Ihre Abfrage in den Abfrageeditor ein. Wenn Sie beispielsweise den Leistungsstatus eines bestimmten Laufwerks aufrufen möchten, geben Sie die folgende Abfrage ein:

        fetch gce_instance
        | metric 'compute.googleapis.com/instance/disk/performance_status'
        | filter metric.device_name == 'DISK_NAME'
        | group_by 1m,
            [value_performance_status_fraction_true:
              fraction_true(value.performance_status)]
        | every 1m
      

    Ersetzen Sie DISK_NAME durch den Namen des Laufwerks, z. B. disk-1.

PromQL

  1. Öffnen Sie den Abfrageeditor. Folgen Sie dazu der Anleitung unter PromQL-Abfragen schreiben.

  2. Geben Sie Ihre Abfrage in den Abfrageeditor ein. Wenn Sie beispielsweise den Leistungsstatus eines bestimmten Laufwerks aufrufen möchten, geben Sie die folgende Abfrage ein:

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

Ersetzen Sie DISK_NAME durch den Namen des Laufwerks, z. B. disk-1.

Wenn Sie die Ergebnisse in einem Diagramm ansehen, gibt es für jede Festplatte drei Linien, eine für jeden möglichen Status. Wenn Sie das Abfrageergebnis in einer Tabelle ansehen, hat die Tabelle für jede Festplatte drei Zeilen.

Wenn Sie die Abfrage mit PromQL oder MQL erstellt haben, hat jede Zeile einen Wert von 1 oder 0. Bei Abfragen, die mit den Menüs erstellt wurden, sind die Werte für 100% oder 0.

Der aktuelle Zustand der Festplatte wird durch die Zeile oder Linie mit dem Wert 100% oder 1 dargestellt.

Der folgende Screenshot zeigt beispielsweise das Diagramm für ein Laufwerk mit dem Namen a-test-VM, dessen Status Healthy ist:

Screenshot des Diagramms, in dem der Status des Laufwerks „Healthy“ (Fehlerfrei) ist

Wenn Sie die Abfrageergebnisse als Tabelle ansehen, ist die folgende Tabelle ein Beispiel für die Ergebnisse für eine Festplatte, die Healthy ist:

performance_status Wert
Healthy 1
Degraded 0
Severely Degraded 0

Der folgende Screenshot zeigt das Diagramm für eine Festplatte namens replica-23509 mit dem Status Eingeschränkt: Screenshot des Diagramms, in dem der Status des Laufwerks „Degraded“ (Beeinträchtigt) ist

Informationen zur Bedeutung der einzelnen Leistungsstatus finden Sie unter Status verstehen. Nachdem Sie das Diagramm erstellt haben, können Sie es in einem Dashboard speichern.

Bruchergebnisse

Wenn Ihre Abfrage wie in der folgenden Tabelle Bruchergebnisse enthält, liegt das in der Regel daran, dass der ausgewählte Anzeigezeitraum lang war. Daher hat Cloud Monitoring die Daten im Laufe der Zeit aggregiert. Ein Wert von 77% für den Status Healthy bedeutet, dass der Status der Festplatte 77% des ausgewählten Anzeigezeitraums Healthy war.

performance_status Wert
Healthy 77%
Degraded 23%
Severely Degraded 0

Wenn Sie sich den Zustand einer Festplatte genauer ansehen möchten, verwenden Sie einen Zeitraum von einigen Stunden oder Minuten.

Bedeutung der einzelnen Status

In diesem Abschnitt wird erläutert, was die einzelnen Status bedeuten und wann Sie möglicherweise weitere Maßnahmen ergreifen müssen.

Healthy

Der Status Healthy gibt an, dass das Laufwerk aus Sicht von Google normal funktioniert.

Wenn bei einer Healthy-Festplatte Leistungsprobleme auftreten, wenden Sie sich nicht an den Support. Stattdessen können Sie das Problem mit der Festplatte mit den folgenden Vorschlägen beheben:

  • Prüfen Sie die Leistungsmesswerte für Laufwerke, z. B. Latenz und Warteschlangentiefe.
  • Prüfen Sie die Logs und Messwerte Ihrer Arbeitslast auf Anomalien und Engpässe.
  • Wenn Sie eine Persistent Disk verwenden, muss die bereitgestellte Kapazität die Leistungsanforderungen des Laufwerks erfüllen. Wenn Sie Hyperdisk- oder Extreme Persistent Disk-Volumes verwenden, prüfen Sie, ob Sie genügend IOPS und Durchsatz bereitgestellt haben.
  • Prüfen Sie, ob Sie die Richtlinien zur Optimierung der Festplatte befolgt haben. Weitere Informationen finden Sie unter Hyperdisk optimieren und Persistent Disk optimieren.

Degraded

Normalerweise müssen Sie sich nicht an den Support wenden, wenn der Status Ihrer Festplatte Degraded ist. Ein Degraded status wird in der Regel durch normale interne Wartungsarbeiten an der Compute Engine-Infrastruktur verursacht.

Möglicherweise bemerken Sie keine Auswirkungen auf die Leistung der Festplatte, solange ihr Status Degraded ist. Wenn das Leistungsproblem und der Status Degraded zeitlich zusammenhängen, ist das Leistungsproblem möglicherweise trotzdem nicht mit dem Status Degraded verknüpft.

Im unwahrscheinlichen Fall, dass ein Leistungsproblem auf den Status Degraded zurückzuführen ist, sind die Auswirkungen in der Regel nur vorübergehend. Der Status der Festplatte sollte innerhalb weniger Minuten zu Healthy zurückkehren.

Sie können den Status Degraded ignorieren, wenn keine Leistungsprobleme mit dem Laufwerk auftreten.

Vorgehensweise bei Leistungsproblemen

Wenn der Leistungsstatus Ihrer Festplatte Degraded ist und Sie ein Leistungsproblem feststellen, gehen Sie so vor:

  1. Sehen Sie im PSH-Dashboard nach, ob ein Vorfall vorliegt, der sich auf die Festplatte auswirkt. Wenn es ein Problem gibt, wenden Sie sich nicht an den Support. Google ist sich des Problems bewusst und arbeitet an einer Lösung.
  2. Wenn keine bekannten Probleme vorliegen, warten Sie mindestens fünf Minuten, bis sich das Leistungsproblem von selbst behoben hat.
  3. Wenn das Leistungsproblem nach 5 Minuten immer noch besteht und der Status weiterhin Degraded ist, prüfen Sie, ob das Leistungsproblem möglicherweise darauf zurückzuführen ist, dass die Festplatte nicht ausreichend optimiert ist. Prüfen Sie beispielsweise die Latenz und die Warteschlangentiefe des Laufwerks. Es ist möglich, dass das Leistungsproblem und der Status Degraded nicht zusammenhängen und nur zufällig auftreten. Prüfen Sie dazu die Messwerte des Laufwerks und die Richtlinien zur Leistungsoptimierung.

  4. Wenn die Leistungsprobleme weiterhin bestehen und alle der folgenden Bedingungen erfüllt sind, können Sie sich an den Support wenden:

    • Der Status der Festplatte ist seit mehr als 5 Minuten Degraded
    • Sie sind sich ziemlich sicher, dass es sich nicht um ein Workload-Problem handelt, da Sie den Datenträger optimiert und überprüft haben, ob andere Probleme wie ein Engpass oder eine überlastete Anwendung vorliegen.
    • Im PSH-Dashboard sind keine Benachrichtigungen vorhanden.

Google empfiehlt nicht, direkt einen Alarm für den Status Degraded zu erstellen, sondern Alarme für den Anwendungsstatus auf höherer Ebene zu verwenden und diesen Messwert zur Fehlerbehebung zu nutzen.

Severely Degraded

Bei einem Laufwerk mit dem Leistungsstatus Severely Degraded liegt ein Leistungsproblem vor. Dieses Problem kann auf einen Vorfall oder Fehler zurückzuführen sein und ist möglicherweise bereits im PSH-Dashboard oder im Trusted Cloud by S3NS -Dashboard für den Dienststatus sichtbar.

Was muss ich tun?

Wenn der Leistungsstatus Ihrer Festplatte Severely Degraded ist, gehen Sie so vor:

  1. Prüfen Sie das PSH-Dashboard und das allgemeine Trusted Cloud by S3NS Health-Dashboard auf einen Vorfall, der sich auf die Festplatte auswirkt. Wenn es ein Problem gibt, wenden Sie sich nicht an den Support. Google ist sich des Problems bewusst und arbeitet an einer Lösung.
  2. Wenn in beiden Dashboards keine bekannten Probleme angezeigt werden, wenden Sie sich an den Support.

Entscheidungsbaum

Das folgende Diagramm veranschaulicht, wie Sie vorgehen, wenn ein Laufwerk ein Leistungsproblem hat, und fasst die Informationen aus den vorherigen Abschnitten zusammen.

Flussdiagramm mit den Schritten zur Interpretation des Messwerts für den Festplattenleistungsstatus.

Wie im Flussdiagramm dargestellt, sollten Sie sich nur dann an den Support wenden, wenn in den Dashboards für PSH und Cloud-Dienste keine bekannten Warnungen vorhanden sind und der Festplattenstatus Severely Degraded ist. Wenn die Festplatte Degraded ist, wenden Sie sich nur dann an den Support, wenn alle der folgenden Bedingungen erfüllt sind:

  • Der Datenträger ist seit mehr als 5 Minuten Degraded
  • Sie haben einen Arbeitslastfehler oder eine Fehlkonfiguration (z. B. Netzwerkprobleme) ausgeschlossen.
  • Auf Anwendungs-, Arbeitslast- oder Festplattenebene können keine zusätzlichen Optimierungen vorgenommen werden.
  • Sie haben alle Messwerte der Festplatte überprüft.
  • Sie haben die Logs Ihrer Arbeitslast und Ihrer VM geprüft.

Nächste Schritte