本页面简要介绍了如何为管理员管理 GKE 集群。
如果您是在 GKE 上运行工作负载的开发者,则可能不需要执行大部分这些任务。如需了解有关在 GKE 上部署工作负载的简介,请参阅部署工作负载。
在阅读本页之前,您应该熟悉以下内容和基本 Kubernetes 概念:
我使用哪些工具?
作为管理员,您可以使用各种工具来处理 GKE 集群。
如需控制集群的配置和总体特性,您可以使用 Trusted Cloud by S3NS 工具和 API,包括 Google Cloud CLI 和 Trusted Cloud 控制台。这些任务包括创建、更新、查看和删除集群,以及使用 Identity and Access Management (IAM) 控制哪些用户可以访问集群。您还可以使用其他 Trusted Cloud by S3NS 工具和服务,例如用于监控、日志记录和提醒的可观测性服务。
如需控制集群的内部行为,您可以使用 Kubernetes API 和
kubectl
命令行界面。您可能需要使用kubectl
的任务包括部署工作负载、应用 Kubernetes 基于角色的访问控制 (RBAC) 政策,以及指定 Kubernetes 网络政策规则。如需详细了解如何配置kubectl
以便与 GKE 集群搭配使用,请参阅安装kubectl
并配置集群访问权限。如需以声明方式预配集群和工作负载,您可以使用 Terraform。如需详细了解如何将 Terraform 与 GKE 搭配使用,请参阅使用 Terraform 预配 GKE 资源。
基本的集群管理
基本集群管理任务包括集群配置、集群升级和节点配置。如果您为集群使用默认 Autopilot 模式(推荐),GKE 会为您处理大部分事宜:集群升级和节点配置由 GKE 管理。如果您使用的是 Standard 模式,则只有升级由 GKE 管理,并且您需要自行配置节点。您可以详细了解何时可能需要为处于 GKE 操作模式的集群选择 Standard 模式。
基本集群管理任务特定于 Trusted Cloud 上的 GKE 集群,通常不涉及 Kubernetes 系统本身;您可以使用 Trusted Cloud 控制台、Google Cloud CLI、GKE API 或 Terraform 的 Trusted Cloud by S3NS提供程序完整执行这些任务。
查看集群
您可以在 Trusted Cloud 控制台中查看集群的基本信息,也可以使用 Google Cloud CLI 或 GKE API 查看此类信息。其中包括集群是否正在运行及其当前配置,以及列出您的所有集群。如需了解详情,请参阅管理集群。
如需详细了解集群状态和健康状况,您可以使用可观测性工具和功能。
集群和节点升级
默认情况下,集群和节点会自动升级。您可以详细了解如何为每个集群配置升级方式,包括何时可以升级以及何时不可以升级。
集群级层配置
集群级层配置任务包括创建和删除 GKE 集群和节点。您还可以更新一些集群设置,例如集群维护任务的发生时间。
如需详细了解集群配置,请参阅集群配置概览。
节点配置
如果您为集群使用 Autopilot,则无需担心节点配置,因为 GKE 会为您配置节点。Autopilot 集群节点均完全由 GKE 管理,并且都使用相同的节点操作系统 (OS) cos_containerd
。
不过,如果您需要为任何集群使用 Standard 模式,GKE 会为集群节点提供一系列选项。例如,您可以创建一个或多个节点池;节点池是集群内共享公共配置的节点组。集群必须至少有一个节点池,在您创建集群时系统会默认创建一个名为 default
的节点池。如需详细了解 GKE 中的节点池管理,请参阅添加和管理节点池。
Standard 集群的其他节点配置选项包括:选择非默认操作系统、使用临时 Spot 虚拟机,以及为新节点选择满足最低要求的 CPU 平台(Autopilot 用户还可以为计算密集型工作负载指定满足最低要求的 CPU 平台,但只能按工作负载范围指定)。
即使使用 Standard 集群,您也无法更改 iptables
规则或 GKE 管理的其他节点级设置。当手动更改还原为集群的声明式配置时,节点可能会变得无法访问或被无意中公开。
配置集群网络
集群管理的一个重要方面是为集群启用和控制各种网络功能,例如 Standard 集群的 IP 地址选项、集群的节点是否可从公共网络访问(无法从公共网络访问的节点称为专用节点)以及网络访问政策。
许多网络功能都是在创建集群时进行设置的(其中许多功能都无法在不重新创建集群的情况下进行更改):使用Trusted Cloud 界面创建集群时,您必须启用要使用的网络功能。由于此行为,如果您不是网络管理员,则在设置可用于生产用途的集群时,可能需要与网络管理员密切合作。
某些可通过 Trusted Cloud by S3NS 工具启用的网络功能(例如网络政策强制执行)还需要使用 Kubernetes API 进行进一步配置。
如需详细了解 GKE 网络,请参阅网络概览。
集群可观测性
集群管理的另一个重要部分是配置和使用可观测性工具,以了解基础设施和应用的运行状况,并保持应用的可用性和可靠性。默认情况下,GKE 集群会配置为执行以下操作:
- 将系统日志、审核日志和应用日志发送到 Cloud Logging。
- 将系统指标发送到 Cloud Monitoring。
- 使用 Google Cloud Managed Service for Prometheus 收集预先配置的第三方指标和用户定义指标,然后将它们发送到 Cloud Monitoring。借助 Google Cloud Managed Service for Prometheus,您可以使用 Prometheus 监控工作负载并发出提醒,而不需要手动完成大量的 Prometheus 管理和操作任务。
GKE 还提供可观测性功能,帮助您使用收集的数据,包括默认信息中心和自定义信息中心、提醒、服务等级目标 (SLO) 监控和日志分析。
您可以在 GKE 的可观测性中详细了解如何设置和使用 GKE 可观测性。
配置集群安全性
GKE 包含可与您的集群搭配使用的 Trusted Cloud专有功能和 Kubernetes 安全功能。您可以使用Trusted Cloud 控制台管理Trusted Cloud级安全性,例如 IAM。您可以使用 Kubernetes API 和其他界面管理集群内安全功能,例如 Kubernetes 基于角色的访问控制 (RBAC)。
如需了解 GKE 提供的安全功能,请参阅安全概览和强化集群安全性。GKE Autopilot 集群会自动实现许多此类安全功能和安全强化最佳做法。如需了解详情,请参阅 GKE Autopilot 中的安全功能。
优化费用
借助 GKE 的工具,您可以查看集群费用,并确保以最高效的方式使用您付费的 Trusted Cloud by S3NS 资源。您可以查看不同时间范围内 CPU、内存和磁盘使用情况的利用率指标,并使用这些指标来帮助优化资源使用情况:例如,如果您有潜在的利用率过低或利用率过高的集群,您可能需要调整其大小。您还可以使用自动扩缩在非高峰时段减小集群大小,并使用分析洞见和建议来识别空闲集群,以及遵循其他最佳实践。
如果您使用的是 GKE Enterprise,还可以查看指标,以优化整个舰队和各个团队的费用。
灾难恢复配置
为确保生产工作负载在发生服务中断事件时仍然可用,您应该准备灾难恢复 (DR) 规划。 如需详细了解灾难恢复规划,请参阅灾难恢复规划指南。
除非您采取明确的措施,否则系统不会备份您的 Kubernetes 配置和任何永久性卷。如需在 GKE 集群上备份和恢复 Kubernetes 配置和永久性卷,您可以使用 Backup for GKE。
后续步骤
- 详细了解集群配置选项。
- 如需详细了解集群架构和 GKE 控制平面,请参阅 GKE 集群架构。
详细了解用于处理 GKE 的工具:
在我们的为预演配置集群和工作负载教程中,通过一个简单的示例了解如何为预演设置集群和工作负载。