Cluster- und Arbeitslaststatus in der Trusted Cloud Console prüfen

Wenn Sie den Zustand Ihrer Google Kubernetes Engine-Cluster (GKE) und -Arbeitslasten schnell prüfen müssen, kann es schwierig sein, zu wissen, wo Sie anfangen sollen. Wenn Sie den Zustand Ihrer Cluster und Arbeitslasten in der Trusted Cloud -Konsole visualisieren, können Sie den Zustand Ihrer Umgebung schnell beurteilen. Clusterstatus bezieht sich auf den Status der zugrunde liegenden GKE-Infrastruktur wie Knoten und Netzwerk, während sich Arbeitslaststatus auf den Status und die Leistung Ihrer Anwendungen bezieht, die im Cluster ausgeführt werden.

Auf dieser Seite erfahren Sie, wie Sie auf den Seiten für Kubernetes-Cluster und ‑Arbeitslasten navigieren, um einen allgemeinen Überblick zu erhalten, potenzielle Probleme wie Knoten mit Ressourcenengpässen oder fehlerhafte Pods zu identifizieren und detailliertere Informationen zu bestimmten Ressourcen abzurufen.

Diese Informationen sind wichtig für Plattformadministratoren und ‑betreiber, die für die Aufrechterhaltung der Clusterstabilität verantwortlich sind und schnelle Systemdiagnosen und Ressourcenprüfungen durchführen müssen. Sie ist auch für Anwendungsentwickler unerlässlich, die den Laufzeitstatus ihrer Bereitstellungen nachvollziehen und Fehler untersuchen müssen. Weitere Informationen zu den gängigen Rollen und Beispielaufgaben, auf die wir in Trusted Cloud by S3NS -Inhalten verweisen, finden Sie unter Häufig verwendete GKE-Nutzerrollen und -Aufgaben.

Um ein vollständiges Bild vom Zustand Ihrer App zu erhalten, bietet die Trusted Cloud Console auch Zugriff auf leistungsstarke Tools für die Protokollierung und Überwachung. So können Sie die Ursache vergangener Fehler untersuchen und zukünftige Fehler proaktiv verhindern. Weitere Informationen zu diesen Tools finden Sie unter Verlaufsanalyse mit Cloud Logging durchführen und Proaktives Monitoring mit Cloud Monitoring durchführen.

Clusterprobleme finden

Auf der Seite Kubernetes-Cluster erhalten Sie einen Überblick über den Status Ihrer Cluster. Auf dieser Seite können Sie Probleme mit Ihren Clustern ermitteln.

Hier sind einige Beispiele dafür, wie Sie diese Seite zur Fehlerbehebung nutzen können:

  • Wenn Sie Ratschläge zur Verbesserung des Clusterzustands, zur Upgradestrategie und zur Kostenoptimierung benötigen, klicken Sie auf Empfehlungen ansehen.
  • In der Spalte Status sehen Sie, welche Cluster fehlerhaft sind. Für alle Cluster ohne grünes Häkchen sind Maßnahmen erforderlich.
  • In der Spalte Benachrichtigungen finden Sie Informationen zu potenziellen Problemen. Klicken Sie auf eine beliebige Benachrichtigung, um weitere Informationen zu erhalten.

Bestimmten Cluster untersuchen

Wenn Sie ein Problem mit einem Cluster feststellen, können Sie auf der Seite Details des Clusters detaillierte Informationen abrufen, die Ihnen bei der Fehlerbehebung und beim Verständnis der Konfiguration helfen.

So rufen Sie die Seite Details eines Clusters auf:

  1. Rufen Sie die Seite Kubernetes-Cluster auf.

    Zur Seite "Kubernetes-Cluster"

  2. Sehen Sie sich die Spalte Name an und klicken Sie auf den Namen des Clusters, den Sie untersuchen möchten.

Hier sind einige Beispiele für die Verwendung der Seite Details des Clusters zur Fehlerbehebung:

  • Versuchen Sie bei allgemeinen Systemdiagnosen Folgendes:

    • Wenn Sie Dashboards auf Clusterebene aufrufen möchten, rufen Sie den Tab Beobachtbarkeit auf. Standardmäßig aktiviert GKE Cloud Monitoring, wenn Sie einen Cluster erstellen. Wenn Cloud Monitoring aktiviert ist, werden die Dashboards auf dieser Seite automatisch von GKE eingerichtet. Hier sind einige Ansichten, die für die Fehlerbehebung am nützlichsten sein könnten:

      • Übersicht: Hier finden Sie eine allgemeine Zusammenfassung des Zustands, der Ressourcenauslastung und der wichtigsten Ereignisse Ihres Clusters. Mit diesem Dashboard können Sie den allgemeinen Zustand Ihres Clusters schnell beurteilen und potenzielle Probleme erkennen.
      • Traffic-Messwerte: Knotenbasierte Netzwerkmesswerte liefern Ihnen Daten über den Traffic zwischen Ihren Kubernetes-Arbeitslasten.
      • Arbeitslaststatus: Hier können Sie den Status von Deployments, Pods und Containern ansehen. Fehlerhafte oder fehlerhafte Instanzen identifizieren und Ressourcenbeschränkungen erkennen.
      • Steuerungsebene: Hier können Sie den Zustand und die Leistung der Steuerungsebene ansehen. Mit diesem Dashboard können Sie wichtige Messwerte von Komponenten wie kube-apiserver und etcd überwachen, Leistungsengpässe erkennen und Komponentenfehler ermitteln.

    • Aktuelle App-Fehler finden Sie auf dem Tab App-Fehler. Die Informationen auf diesem Tab können Ihnen dabei helfen, Fehler zu priorisieren und zu beheben, da sie die Anzahl der Vorkommen, das erste Auftreten und das letzte Auftreten eines Fehlers anzeigen.

      Wenn Sie einen Fehler genauer untersuchen möchten, klicken Sie auf die Fehlermeldung, um einen detaillierten Fehlerbericht mit Links zu relevanten Logs aufzurufen.

  • Wenn Sie Probleme nach einem kürzlich erfolgten Upgrade oder einer Änderung beheben möchten, sehen Sie sich den Abschnitt Clustergrundlagen auf dem Tab Details des Clusters an. Prüfen Sie, ob die im Feld Version aufgeführte Version der erwarteten Version entspricht. Klicken Sie im Bereich Upgrades auf Upgrade-Verlauf anzeigen, um weitere Informationen zu erhalten.

  • Wenn Sie einen Standardcluster verwenden und Ihre Pods im Status Pending hängen bleiben oder Sie vermuten, dass Knoten überlastet sind, sehen Sie auf dem Tab Knoten nach. Der Tab Knoten ist für Autopilot-Cluster nicht verfügbar, da GKE die Knoten für Sie verwaltet.

    • Prüfen Sie im Abschnitt Knotenpools, ob die automatische Skalierung richtig konfiguriert ist und der Maschinentyp für Ihre Arbeitslasten geeignet ist.
    • Suchen Sie im Abschnitt Knoten nach Knoten mit einem anderen Status als Ready. Der Status NotReady weist auf ein Problem mit dem Knoten selbst hin, z. B. Ressourcenmangel oder ein Problem mit dem Kubelet (dem Agent, der auf jedem Knoten ausgeführt wird, um Container zu verwalten).

Probleme mit Arbeitslasten finden

Wenn Sie vermuten, dass ein Problem mit einer bestimmten App vorliegt, z. B. eine fehlgeschlagene Bereitstellung, rufen Sie in der Trusted Cloud Console die Seite Arbeitslasten auf. Auf dieser Seite finden Sie eine zentrale Ansicht aller Apps, die in Ihren Clustern ausgeführt werden.

  • Rufen Sie in der Trusted Cloud Console die Seite Arbeitslasten auf.

    Zu Arbeitslasten

Hier sind einige Beispiele dafür, wie Sie diese Seite zur Fehlerbehebung nutzen können:

  • Sehen Sie sich die Spalte Status an, um fehlerhafte Arbeitslasten zu identifizieren. Bei allen Arbeitslasten ohne grünes Häkchen sind Maßnahmen erforderlich.
  • Wenn eine App nicht reagiert, sehen Sie sich die Spalte Pods an. Ein Status wie 1/3 bedeutet beispielsweise, dass nur eines von drei App-Replikaten ausgeführt wird, was auf ein Problem hinweist.

Bestimmte Arbeitslast untersuchen

Nachdem Sie in der Übersicht eine problematische Arbeitslast identifiziert haben, können Sie auf der Seite Details der Arbeitslast mit der Eingrenzung der Ursache beginnen.

So rufen Sie die Seite Details einer Arbeitslast auf:

  1. Zur Seite „Arbeitslasten“

    Zu Arbeitslasten

  2. Sehen Sie sich die Spalte Name an und klicken Sie auf den Namen der Arbeitslast, die Sie untersuchen möchten.

Hier sind einige Beispiele dafür, wie Sie die Seite Details der Arbeitslast verwenden können, um Probleme mit Ihren Arbeitslasten zu beheben:

  • Verwenden Sie die Tabs Übersicht und Details, um die Konfiguration der Arbeitslast zu prüfen. Anhand dieser Informationen können Sie Ereignisse wie die Bereitstellung des richtigen Container-Image-Tags überprüfen oder die Ressourcenanforderungen und ‑limits der Arbeitslast prüfen.

  • Den Namen eines bestimmten abstürzenden Pods finden Sie im Bereich Verwaltete Pods. Möglicherweise benötigen Sie diese Informationen für kubectl-Befehle. In diesem Abschnitt werden alle Pods aufgeführt, die von der Arbeitslast gesteuert werden, zusammen mit ihren Status.

  • Wenn Sie den Verlauf der letzten Änderungen an einer Arbeitslast aufrufen möchten, rufen Sie den Tab Überarbeitungsverlauf auf. Wenn Sie nach einer neuen Bereitstellung Leistungsprobleme feststellen, können Sie in diesem Abschnitt ermitteln, welche Revision aktiv ist. Anschließend können Sie die Konfigurationen der aktuellen Überarbeitung mit früheren vergleichen, um die Quelle des Problems zu ermitteln. Wenn dieser Tab nicht angezeigt wird, ist die Arbeitslast entweder ein Typ, für den keine Revisionen verwendet werden, oder es gab noch keine Aktualisierungen.

  • Wenn eine Bereitstellung fehlgeschlagen zu sein scheint, rufen Sie den Tab Ereignisse auf. Diese Seite ist oft die wertvollste Informationsquelle, da sie Ereignisse auf Kubernetes-Ebene enthält.

  • Wenn Sie sich die Logs Ihrer App ansehen möchten, klicken Sie auf den Tab Logs. Auf dieser Seite erfahren Sie, was in Ihrem Cluster passiert. Hier finden Sie Fehlermeldungen und Stacktraces, die Ihnen bei der Diagnose von Problemen helfen können.

  • Auf dem Tab YAML können Sie genau sehen, was bereitgestellt wurde. Auf dieser Seite wird das aktuelle YAML-Manifest für die Arbeitslast angezeigt, wie es im Cluster vorhanden ist. Diese Informationen sind nützlich, um Abweichungen von Ihren quellcodeverwalteten Manifesten zu finden. Wenn Sie das YAML-Manifest eines einzelnen Pods aufrufen, wird auf diesem Tab auch der Status des Pods angezeigt. So erhalten Sie Informationen zu Fehlern auf Pod-Ebene.

Nächste Schritte