Fehlerbehebung für GKE

In diesem Dokument finden Sie Links zu Dokumenten zur Fehlerbehebung für häufige Probleme, die bei der Verwendung von Google Kubernetes Engine (GKE) auftreten können. Ob Sie Arbeitslastfehler wie ImagePullBackOff und CrashLoopBackOff diagnostizieren, das Cluster-Autoscaling-Verhalten debuggen, Probleme mit persistenten Volumes beheben oder Probleme bei der Knotenregistrierung beheben möchten – die hier aufgeführten Dokumente können Ihnen helfen.

Wenn Sie noch keine Erfahrung mit der Fehlerbehebung in GKE haben, beginnen Sie mit der Einführung in die Fehlerbehebung.

Informationen zum Diagnostizieren und Beheben von Problemen finden Sie in den Dokumenten in den folgenden Abschnitten:

Informationen zur Fehlerbehebung bei GKE-Netzwerken finden Sie unter Fehlerbehebung bei GKE-Netzwerken in der GKE-Netzwerkdokumentation.

Dieses Dokument richtet sich an Administratoren und Architekten, Sicherheitsexperten, Netzwerkspezialisten oder Speicherspezialisten, die Fehler in GKE-Konfigurationen beheben. Weitere Informationen zu GKE-Rollen finden Sie unter Häufig verwendete GKE-Nutzerrollen und -Aufgaben.

Einführung in die Fehlerbehebung

Thema Beschreibung
Einführung in die Fehlerbehebung in GKE Erste Schritte zur Fehlerbehebung in GKE: Informationen zum allgemeinen Prozess und zu grundlegenden Konzepten.
Dienststatus und Vorfälle prüfen Informationen zum Prüfen des Status von GKE und zugehörigen Cloud de Confiance by S3NS Diensten, um Plattformprobleme auszuschließen.
Status von Clutter und Arbeitslasten in der Cloud de Confiance Console prüfen Informationen zum Untersuchen und Beheben von GKE-Problemen mit der Cloud de Confiance Console.
Clusterstatus mit kubectl untersuchen Häufige kubectl Befehle und Techniken zum Diagnostizieren von Problemen in Clustern und Arbeitslasten.
Verlaufsanalyse mit Cloud Logging durchführen Informationen zur effektiven Verwendung von Cloud Logging, um die Ursachen von Problemen in GKE zu finden.
Proaktives Monitoring mit Cloud Monitoring Cloud Monitoring-Dashboards und -Messwerte verwenden, um GKE-Probleme zu identifizieren, diagnostizieren und zu beheben.
Diagnose mit Gemini Cloud Assist beschleunigen Informationen dazu, wie Gemini bei der Diagnose und Behebung von GKE-Problemen helfen kann.
Alles zusammenführen: Beispielszenario zur Fehlerbehebung Schritt-für-Schritt-Beispiel zur Fehlerbehebung in einem häufigen Szenario in GKE.

Clustereinrichtung

Thema Beschreibung
Clustererstellung Probleme beim Erstellen von Clustern beheben.
Autopilot-Cluster GKE Autopilot-Cluster diagnostizieren und Fehler beheben, einschließlich Clustererstellung, Namespace-Löschung, Skalierung und Arbeitslastprobleme.
Befehlszeilentool `kubectl` Fehlerbehebung beim kubectl Befehlszeilentool in GKE, einschließlich Problemen mit Authentifizierung und Autorisierung. Diese Seite enthält auch Ratschläge zur Fehlerbehebung beim Konnectivity-Proxy um zu prüfen, ob er dazu führt, dass die Befehle kubectl logs, attach, exec oder port-forward nicht mehr reagieren.
Standard-Knotenpools Fehlerbehebung bei GKE Standard-Knotenpools, einschließlich Problemen bei der Knotenpoolerstellung, Best-Effort-Bereitstellung, beschädigten Instanzmetadaten und der Migration von Arbeitslasten zu neuen Knotenpools.
Knotenstatus NotReady Informationen zum Diagnostizieren und Beheben des Knotenstatus NotReady in GKE durch Fehlerbehebung bei häufigen Ursachen wie Ressourcenmangel, Netzwerkproblemen und Komponentenausfällen.
Knotenregistrierung Fehlerbehebung bei Problemen, die beim Hinzufügen von Knoten zu Ihrem GKE Standard-Cluster auftreten, z. B. Fehler bei der Knotenregistrierung und fehlende Voraussetzungen für eine erfolgreiche Knotenregistrierung.
Containerlaufzeit Fehlerbehebung bei Containerlaufzeiten in GKE, einschließlich Problemen mit containerd und dockershim sowie privaten Registries.

Autoscaling

Thema Beschreibung
Cluster Autoscaler skaliert nicht herunter Häufige Gründe dafür diagnostizieren und beheben, dass in Ihrem Cluster nicht ausgelastete Knoten nicht entfernt werden. Informationen zum Prüfen auf Probleme wie restriktive PodDisruptionBudgets, Pods mit lokalem Speicher oder bestimmte Anmerkungen (z. B. "cluster-autoscaler.kubernetes.io/safe-to-evict": "false") die das Entfernen von Knoten verhindern.
Cluster Autoscaler skaliert nicht hoch Informationen dazu, warum der Cluster Autoscaler keine neuen Knoten hinzufügt, um die Nachfrage zu decken. Prüfen Sie, ob Pods nicht geplant werden können, ob die Größenlimits für Cluster oder Knoten pools erreicht wurden, und ermitteln Sie potenzielle Probleme mit Ressourcenkontingenten oder der regionalen VM Verfügbarkeit.
Horizontales Pod-Autoscaling Fehlerbehebung bei Problemen, bei denen der horizontale Pod-Autoscaler die Pod-Replikate Ihrer Anwendung nicht skaliert. Häufige Probleme beheben, z. B. falsch konfigurierte HorizontalPodAutoscaler-Objekte oder Probleme mit der Messwert pipeline.

Speicher

Thema Beschreibung
Speicher Fehlerbehebung bei Speicherproblemen, einschließlich Problemen mit regionalen nichtflüchtigen Speichern, der Laufwerksleistung und der Volume-Erweiterung.

Clustersicherheit

Thema Beschreibung
Authentifizierung Fehlerbehebung bei der Authentifizierung in GKE, einschließlich Problemen mit RBAC, Workload Identity Federation for GKE und dem GKE Metadatenserver.
Dienstkonten Fehlerbehebung bei Dienstkonten, einschließlich des Wiederherstellens des Standarddienst kontos und des Aktivierens des standardmäßigen Compute Engine-Dienstkontos.
Secrets auf Anwendungsebene Fehlerbehebung bei Problemen, die bei der Konfiguration der Verschlüsselung von Secrets auf Anwendungsebene auftreten können, einschließlich fehlgeschlagener Updates und Fehlern bei denen Sie keinen Cloud KMS-Schlüssel verwenden können oder die Cloud KMS-Schlüsselversion gelöscht wurde.

Ablauf der Root-Zertifizierungsstelle des Clusters in Kürze

Thema Beschreibung
Ablauf der Root-Zertifizierungsstelle (CA) Wenn die Root-Zertifizierungsstelle Ihres Clusters bald abläuft, erfahren Sie hier, wie Sie eine Rotation der Anmeldedaten durchführen, um zu verhindern, dass normale Clustervorgänge unterbrochen werden.

Arbeitslasten

Thema Beschreibung
Bereitgestellte Arbeitslasten Fehlerbehebung bei Fehlern für Arbeitslasten, die in einem GKE Cluster ausgeführt werden, einschließlich PodUnschedulable. Im Abschnitt PodUnschedulable finden Sie Ratschläge zu Fehlern wie MatchNodeSelector und Does not have minimum availability.
Image-Abrufe Fehlerbehebung bei Image-Abrufen. Informationen zu den Ursachen von Status wie ImagePullBackOff und ErrImagePull und wie Sie diese Status beheben können, indem Sie häufige Probleme wie Authentifizierung und Netzwerkkonnektivität beheben.
CrashLoopBackOff-Ereignisse Fehlerbehebung bei CrashLoopBackOff Ereignissen in GKE. Probleme wie Ressourcenmangel, App Fehlkonfigurationen und Fehler bei Liveness-Tests diagnostizieren.
OOM-Ereignisse Fehlerbehebung bei Kubernetes-Ereignissen aufgrund von unzureichendem Arbeitsspeicher (Out of Memory, OOM). Ursachen ermitteln, Ereignistypen unterscheiden und effektive Lösungen für OOM-Kills auf Container- und Knotenebene anwenden.
Arm-Arbeitslasten Fehlerbehebung bei Problemen mit Arm-Arbeitslasten, einschließlich Abstürzen von Pods auf Arm-Knoten.
TPUs Fehlerbehebung bei TPUs, einschließlich Problemen mit Kontingenten, der automatischen Knotenbereitstellung , der Arbeitslastkonfiguration und der Planung.
GPUs Fehlerbehebung bei GPUs, einschließlich Problemen mit der GPU-Treiberinstallation, Geräte-Plug-in-Fehlern und Container-Images.

Clusterverwaltung

Thema Beschreibung
Cluster upgrades Fehlerbehebung bei Problemen mit GKE-Cluster- und Knoten Upgrade, einschließlich langer oder unvollständiger Upgrades, unerwarteter automatischer Upgrades, Fehlern und Problemen nach dem Upgrade.
Webhooks Informationen zur Fehlerbehebung und zur Gewährleistung der Stabilität der Cluster-Steuerungsebene bei Verwendung von Zulassungs-Webhooks.
Namespace im Status Terminating Fehlerbehebung bei Problemen mit Namespaces, die im Terminating Status festhängen, indem Sie die fehlerhaften Komponenten, die das Löschen blockieren, identifizieren und entfernen.
Gleichzeitige Vorgänge Fehlerbehebung bei gleichzeitigen Vorgängen: Informationen zum Identifizieren dieser Fehler und zum Beheben dieser Fehler durch Warten auf den Abschluss der Vorgänge.

Monitoring

Thema Beschreibung
Systemmesswerte Fehlerbehebung bei Systemmesswerten, die nicht in Cloud Monitoring angezeigt werden.
Monitoring-Dashboards Fehlerbehebung bei Monitoring-Dashboards, einschließlich Problemen beim Aktivieren des Monitorings, fehlenden Kubernetes-Ressourcen und Berechtigungen.
Fehlerbehebung bei fehlenden Logs Fehlerbehebung bei fehlenden GKE-Logs. Informationen zum Prüfen des API Status, der Clustereinstellungen, Berechtigungen, Kontingente, Filter und des Anwendungs verhaltens.

4xx-Fehler

Thema Beschreibung
4xx-Fehler Fehlerbehebung bei einigen der 400-, 401-, 403- und 404-Fehler, die bei der Verwendung von GKE auftreten können. Diese Seite enthält auch Informationen zur Fehlerbehebung bei fehlenden Bearbeitungsberechtigungen für Kontofehler.

Bekannte Probleme

Thema Beschreibung
Bekannte Probleme Bekannte Probleme identifizieren und beheben, die sich auf die Verwendung von GKE auswirken können.

Nächste Schritte