本页面上的部分或全部信息可能不适用于 Cloud de Confiance by S3NS。如需了解详情，请参阅与 Google Cloud 的区别。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Pod 纵向自动扩缩

Autopilot Standard

本页面介绍了如何使用 Pod 纵向自动扩缩功能在 Google Kubernetes Engine (GKE) 中分析和优化资源分配，以提高工作负载效率。通过分析工作负载在一段时间内的资源使用情况，您可以获得优化建议，并自动调整 Pod 中容器的 CPU 和内存请求以及限制。

在本页面中，您将了解 Pod 纵向自动扩缩的工作原理、优势和限制、使用方法最佳实践，并访问 VerticalPodAutoscaler 自定义资源和相关类型的 API 参考文档。

本页面适用于预配和配置云资源、部署工作负载以及管理应用伸缩的运维人员和开发者。如需详细了解常见角色，请参阅常见的 GKE Enterprise 用户角色和任务。

在阅读本页面之前，请确保您熟悉 Kubernetes 中的资源请求和限制。

如果需要快速扩缩以应对突然增加的资源使用量，请使用 Pod 横向自动扩缩器。

如需了解自动扩缩的最佳实践，请参阅在 GKE 上运行费用经过优化的 Kubernetes 应用的最佳实践。

为何使用 Pod 纵向自动扩缩

Pod 纵向自动扩缩具有以下优势：

为工作负载设置适当的资源请求和限制可以提高稳定性和成本效益。如果 Pod 资源大小低于工作负载所需的大小，则您的应用可能会受到限制，或者由于内存不足错误而可能发生故障。如果资源大小过大，则会造成浪费，进而产生高额账单。
因为 Pod 完全用其所需，所以集群节点使用效率高。
Pod 会被安排到具有适当可用资源的节点上。
您不必运行耗时的基准测试任务来确定 CPU 和内存请求的正确值。
自动扩缩器可以随时间推移调整 CPU 和内存请求，而无需您执行任何操作，因此维护时间缩短。
Pod 纵向自动扩缩功能最适合长时间运行的同质工作负载。

与开源 Kubernetes 自动扩缩器相比，GKE Pod 纵向自动扩缩具有以下优势：

在确定推荐目标时，会考虑节点大小上限和资源配额。
通知集群自动扩缩器来调整集群容量。
使用历史数据，包括在启用 VerticalPodAutoscaler 之前收集的指标。
将 VerticalPodAutoscaler Pod 作为控制平面进程运行，而不是作为工作器节点上的部署运行。

Pod 纵向自动扩缩的工作原理

借助 Pod 纵向自动扩缩，您可以分析和设置 Pod 所需的 CPU 和内存资源。您无需为 Pod 中的容器设置最新的 CPU 请求和限制以及内存请求和限制，而是可以配置 Pod 纵向自动扩缩，以便为可用于手动更新 Pod 的 CPU 和内存请求及限制提供建议值，也可以将 Pod 纵向自动扩缩配置为自动更新这些值。

在 Autopilot 集群中，Pod 纵向自动扩缩默认处于启用状态。

与 Kubernetes 开源 VerticalPodAutoscaler 的关系

GKE Pod 纵向自动扩缩功能基于开源 Kubernetes VerticalPodAutoscaler API，但它是 GKE 独有的单独实现。GKE 实现旨在通过自己的推荐器实现扩缩，但会保留开源版本中定义的相同 VerticalPodAutoscaler API 种类和字段。

如需了解详情，请参阅 Kubernetes 文档中的 Pod 纵向自动扩缩。

Pod 纵向自动扩缩模式

您可以通过应用不同的更新模式来配置 Pod 纵向自动扩缩应用资源更改的方式。

`Auto` (`Recreate`) 模式

在 Recreate 模式下，如果需要更改某个 Pod 的资源请求，Pod 纵向自动扩缩会逐出该 Pod。由于 Kubernetes 在 1.33 之前的版本中存在限制，修改正在运行的 Pod 的资源请求的唯一方法是重新创建该 Pod，因此需要逐出。

如需限制 Pod 重新创建的数量，请使用 Pod 中断预算。如需确保集群可以处理新规模的工作负载，请使用集群自动扩缩器和节点自动预配。

Pod 纵向自动扩缩会在更新之前通知集群自动扩缩器，并在重新创建工作负载之前提供调整规模的工作负载所需的资源，以最大限度地缩短中断时间。

`Initial`模式

启用 Initial 后，Pod 纵向自动扩缩仅会在创建 Pod 时分配资源请求，之后不再进行更改。

`InPlaceOrRecreate`模式

InPlaceOrRecreate 模式旨在通过尝试更新 Pod 资源而不重新创建 Pod 来减少服务中断。

如需使用 InPlaceOrRecreate 模式，请将 VerticalPodAutoscaler 对象中的 spec.updatePolicy.updateMode 字段设置为 "InPlaceOrRecreate"。此模式依赖于工作负载清单中定义的 resizePolicy 字段来确定资源更改是否需要重启。如果未定义 resizePolicy 字段，则 CPU 和内存的默认值为 NotRequired，这意味着系统会尝试就地更新。

如果容器因内存不足 (OOM) 事件而终止，则处于 InPlaceOrRecreate 模式的 Pod 纵向自动扩缩功能会以类似于 Auto 模式的方式运行：它会从失败中学习。在崩溃触发的后续 Pod 重新创建时，Pod 纵向自动扩缩会应用包含安全缓冲区的建议（通常是额外的 20% 内存或 100 MB，以较大者为准），以防止立即重复出现 OOM 错误。

InPlaceOrRecreate 模式适用于 Kubernetes 版本 1.34.0-gke.2201000 及更高版本。

`InPlaceOrRecreate` 模式的回退场景

如果 Pod 纵向自动扩缩确定无法进行就地更新，则会回退到 Recreate 模式行为，即逐出并重新创建 Pod 以应用更改。在以下一些常见情况下，Pod 纵向自动扩缩会回退到重新创建：

节点容量不足：更新后的资源请求超出当前节点的可分配容量，并且无法就地安排更新（“不可行”或“延迟”状态持续时间超过超时时间）。
QoS 类更改：资源更新会更改 Pod 的服务质量 (QoS) 类，例如从 Burstable 更改为 Guaranteed。
RestartContainer 政策：对于 Pod 纵向自动扩缩尝试更改的资源，Pod 的 resizePolicy 字段设置为 RestartContainer。
超时：就地更新请求长时间处于待处理状态。

`Off`模式

在 Off 模式下，Pod 纵向自动扩缩不会自动对 Pod 进行任何更改。您仍然可以根据历史使用情况查看 CPU 和内存的请求和限制的建议值，但系统不会为您应用这些建议。您可以根据需要手动将建议的值应用到 Pod。

CPU 启动加速

CPU 启动加速功能可在初始化期间临时增加 CPU 请求，并在适当的时候将其调整回基准水平，从而加快应用启动速度并提高成本效益。

如需详细了解如何配置 CPU 启动加速，请参阅利用 CPU 启动加速功能加快应用启动速度。

CPU 启动加速功能的工作原理

CPU 启动加速会根据容器的基准 CPU 请求计算临时资源增加量。在启动阶段结束后，Pod 会返回到此基准请求级别。

提升会通过倍数或固定数量来增加此基准请求。此提升的请求会一直保持有效，直到 Pod 准备就绪，之后 GKE 会将 CPU 请求恢复到基准水平。

了解加推生命周期

启动加速流程包含三个阶段：

准入阶段：在 Pod 准入期间，VPA 准入 Webhook 会拦截请求，并在 GKE 调度 Pod 之前注入提升的 CPU 值。
启动阶段：应用使用暂时提升的 CPU 分配进行初始化，以避免初始化受到限制。
取消提升阶段：当 Pod 达到 Ready 状态且 durationSeconds 周期过去后，VPA 会将 CPU 请求就地缩减到基本值。

为提升型工作负载选择更新模式

您可以配置 CPU 启动加速，无论是否使用 VPA 的持续资源管理功能。VPA 的持续资源管理功能会在启动阶段结束后自动调整 Pod 资源请求。如需选择偏好设置，请在 VPA 对象中设置 updateMode 字段。如需详细了解 VPA 更新模式，请参阅 Pod 纵向自动扩缩模式。

updateMode: "Off"：VPA 仅管理 Pod 准入（Pod 创建过程中的一个阶段）期间的初始提升以及启动后的后续缩减。它不会修改容器的稳态资源请求。
updateMode: "Auto"、"Recreate" 或 "InPlaceOrRecreate"：VPA 会管理启动加速，并根据 Pod 的持续使用情况自动调整其资源请求。

CPU 提升资源分配的计算方式

GKE 按如下方式计算临时提升的 CPU 请求：

确定基本 CPU：基准 CPU 请求取决于 VPA updateMode 字段：
- Auto、Recreate 或 InPlaceOrRecreate：基准 CPU 请求是 VPA 建议。如果不存在任何建议，GKE 会回退到 Pod 规范中定义的 CPU 请求。
- Off：基准 CPU 请求是来自 Pod 规范的请求值。
计算提升后的 CPU：计算方法取决于您在提升配置 type 字段中指定的计算方法：
- Factor：将调节系数应用于基本 CPU 请求：
  
  加速 CPU = 基本 CPU × factor
- Quantity：向基本 CPU 请求添加绝对 CPU 数量：
  
  加速 CPU = 基本 CPU + quantity

最终 CPU 请求取决于您的集群模式：

标准集群：最终 CPU 请求为提升后的 CPU 值。
Autopilot 集群：最终 CPU 请求量是提升后的 CPU 值，但不得超过为分配的 Pod 内存所允许的最大 CPU 值。

了解在提升期间 CPU 限制的行为

GKE 处理 CPU 限制的方式取决于 containerResourcePolicy 中 controlledValues 的设置：

RequestsAndLimits（默认）：GKE 会同时提高 CPU 请求和限制，并保持其原始比率，以保留容器的服务质量 (QoS) 类。
RequestsOnly：GKE 仅提升 CPU 请求。 GKE 会将提升后的请求限制在略低于任何已定义的 CPU 限制，以保持 QoS。

Autopilot 集群的注意事项

由于 GKE Autopilot 会强制执行特定的 CPU 与内存比率范围和最小 Pod 大小，因此 GKE 会在 Pod 准入期间评估提升，以确保合规性。在以下情况下，系统可能会修改或忽略加权：

Autopilot 最小值：如果提升后的请求低于 Autopilot 工作负载的最低 CPU 要求（例如，通用 Pod 的最低 CPU 要求为 50 毫核），GKE 不会应用提升，而是强制执行标准最小值。
比率上限（部分或跳过提升）：如果提升后的 CPU 请求会超出所需的 CPU 与内存比率范围，GKE 会将提升限制为尊重所分配内存的最高值。如果原始 Pod 请求已使用允许的最大 CPU 与内存比率，GKE 会跳过提升，以避免调整内存大小。
Scale-Out ComputeClass：Scale-Out ComputeClass 强制执行严格的 1:4（CPU:内存）比率。尝试提升 Scale-Out Pod 的 CPU，而不增加其内存，可能会导致 GKE 忽略提升。

资源政策

您可以使用 ContainerResourcePolicy 自定义 Pod 纵向自动扩缩如何为特定容器生成建议。借助此政策，您可以设置限制并控制哪些资源可以扩缩。

下限和上限

您可以为容器指定最小 (minAllowed) 和最大 (maxAllowed) 资源值。

minAllowed：Pod 纵向自动扩缩不会建议低于此限制的值。此限制非常有用，因为它可以帮助确保达到基准性能水平或满足特定于应用的要求。
maxAllowed：纵向 Pod 自动扩缩不会建议高于此限制的值。此限制有助于控制费用或防止单个容器消耗过多的节点资源。

受控资源

默认情况下，Pod 纵向自动扩缩功能会同时计算 CPU 和内存的建议值。您可以使用 controlledResources 字段指定要自动扩缩的资源。例如，您可以将自动扩缩器配置为仅提供内存建议，而不更改 CPU 请求。

限制

如需将 Pod 纵向自动扩缩与Pod 横向自动扩缩结合使用，请使用Pod 多维自动扩缩。您还可以为自定义和外部指标结合使用 Pod 纵向自动扩缩和 Pod 横向自动扩缩。
Pod 纵向自动扩缩目前无法用于基于 JVM 的工作负载，因为对此类工作负载的实际内存用量的了解有限。
在 GKE 1.35.1 及更早版本中，Pod 纵向自动扩缩的默认设置至少为两个副本，以便 Deployment 将 Pod 替换为修改后的资源值。在 1.35.2 及更高版本中，默认值为一个最小副本。在 1.22 版及更高版本中，您可以通过在 PodUpdatePolicy 字段中指定 minReplicas 字段的值来替换此设置。
如果您使用 Pod 纵向自动扩缩的 InPlaceOrRecreate 更新模式，但无法进行就地更新（例如，当 Pod 纵向扩容超出节点容量时），Pod 纵向自动扩缩会逐出并重新创建 Pod 以应用建议。即使 Pod 的规范中设置了 resizePolicy 字段以避免重新创建，也会进行逐出和重新创建。此行为适用于 Autopilot 调整大小请求，包括应用最低资源和 CPU:内存比率限制时。
Pod 纵向自动扩缩需要管理 Pod 的工作负载对象，例如 Deployment、StatefulSet、ReplicaSet 或 ReplicationController。您无法将 Pod 纵向自动扩缩与独立 Pod 搭配使用，因为需要工作负载控制器来管理 Pod 重新创建过程。

最佳做法

限制 VerticalPodAutoscaler 对象的数量。为避免集群更新中断，您应将每个集群的 VerticalPodAutoscaler 对象数量保持在 1,000 以下。
Pod 纵向自动扩缩功能最适合长时间运行的同质工作负载。
- 长时间运行：运行时间至少为 24 小时的工作负载。Pod 纵向自动扩缩功能需要大量历史数据才能生成可信度高的建议。在 Auto 或 Recreate 模式下，更新通常会在 Pod 运行至少 24 小时后进行，这有助于防止频繁重启 Pod 和出现 churn。
- 同质：单个 VerticalPodAutoscaler 对象（例如 Deployment 中的所有副本）所针对的 pod 应表现出类似的资源消耗模式。纵向 Pod 自动扩缩器会汇总所有目标 Pod 的使用情况数据，从而生成建议。如果您的副本具有异构使用情况，例如某些 Pod 处于空闲状态，而另一些 Pod 处于重载状态，则 Pod 纵向自动扩缩器可能会提供过度配置空闲 Pod 或配置不足繁忙 Pod 的建议。
对于需求突然激增的工作负载，请使用 Pod 横向自动扩缩。Pod 纵向自动扩缩功能旨在实现稳态资源调整，不适用于突然的短期资源峰值。对于流量或 CPU/内存需求快速波动的工作负载，请改用 Pod 横向自动扩缩器。
利用 OOM 保护。虽然 Pod 纵向自动扩缩器是反应式的，但它确实包含针对内存不足 (OOM) 事件的自动保护功能。如果某个 Pod 处于 OOMKilled 状态，Pod 纵向自动扩缩器会立即观察到该事件，并将内存建议值增加大约 20%（或 100 MB，以较大者为准），以便在重新创建 Pod 时提高稳定性。如需详细了解 OOM 事件，请参阅排查 OOM 事件问题。

API 参考文档

这是 v1 API 参考文档。我们强烈建议您使用此版本的 API。

VerticalPodAutoscaler v1 autoscaling.k8s.io

字段
	`TypeMeta` API 组、版本和种类。
`metadata`	`ObjectMeta` 标准对象元数据。
`spec`	`VerticalPodAutoscalerSpec` `VerticalPodAutoscaler` 的行为。
`status`	`VerticalPodAutoscalerStatus` 最近观察到的 `VerticalPodAutoscaler` 的状态。

VerticalPodAutoscalerSpec v1 autoscaling.k8s.io

字段
`targetRef`	`CrossVersionObjectReference` 引用用于管理一组 Pod 以供自动扩缩器控制的控制器，例如 Deployment 或 StatefulSet 控制器。您可以将 `VerticalPodAutoscaler` 指向任何具有 Scale 子资源的控制器。一般而言，`VerticalPodAutoscaler` 从控制器的 ScaleStatus 中检索 Pod 集合。如果是 DaemonSet 等一些众所周知的控制器，`VerticalPodAutoscaler` 会从控制器的规范中检索 Pod 集合。
`updatePolicy`	`PodUpdatePolicy` 指定在 Pod 启动时是否应用推荐的更新，以及在 Pod 的生命周期内是否应用推荐的更新。
`resourcePolicy`	`PodResourcePolicy` 指定如何为各个容器调整 CPU 和内存请求的政策。资源政策可用于设置针对各个容器的建议约束。如果未指定，自动扩缩器将计算 Pod 中所有容器的推荐资源，且不受其他限制。
`recommenders`	`VerticalPodAutoscalerRecommenderSelector array` 负责为此 VPA 对象生成建议的 Recommender。留空可使用 GKE 提供的默认 Recommender。否则，列表只能为用户提供的备用 Recommender 提供一个条目。从 GKE 1.22 开始受支持。

VerticalPodAutoscalerList v1 autoscaling.k8s.io

字段

TypeMeta

API 组、版本和种类。

metadata

ObjectMeta

标准对象元数据。

items

VerticalPodAutoscaler array

VerticalPodAutoscaler 对象的列表。

PodUpdatePolicy v1 autoscaling.k8s.io

字段

字段
`updateMode`	`string` 指定在 Pod 启动时是否应用推荐的更新，以及在 Pod 的生命周期内是否应用推荐的更新。可能的值如下： `"Off"`：系统会生成建议的更新，但不会自动将其应用于 Pod。 `"Initial"`：仅在首次启动 Pod 时应用建议的更新。在 Pod 已经运行时发生的更新不会自动应用。 `"Recreate"`：通过重新创建 Pod 来应用建议的更新。现有 Pod 会终止，并创建一个具有更新后的配置的新 Pod。 `"Auto"`：默认值，实际上会强制执行 `"Recreate"` 模式。 `"InPlaceOrRecreate"`：如果可能，在不重新创建 Pod 的情况下应用建议的更新。
`minReplicas`	`int32` 尝试 Pod 逐出所需的最小活跃副本数（等待其他检查，如 Pod 中断预算）。仅允许使用正值。在 GKE 1.35.2 版及更高版本中，默认值为 `1`；在 1.35.1 版及更低版本中，默认值为 `2`。从 GKE 1.22 开始受支持。

updateMode

string

指定在 Pod 启动时是否应用推荐的更新，以及在 Pod 的生命周期内是否应用推荐的更新。可能的值如下：

"Off"：系统会生成建议的更新，但不会自动将其应用于 Pod。
"Initial"：仅在首次启动 Pod 时应用建议的更新。在 Pod 已经运行时发生的更新不会自动应用。
"Recreate"：通过重新创建 Pod 来应用建议的更新。现有 Pod 会终止，并创建一个具有更新后的配置的新 Pod。
"Auto"：默认值，实际上会强制执行 "Recreate" 模式。
"InPlaceOrRecreate"：如果可能，在不重新创建 Pod 的情况下应用建议的更新。

minReplicas

int32

尝试 Pod 逐出所需的最小活跃副本数（等待其他检查，如 Pod 中断预算）。仅允许使用正值。在 GKE 1.35.2 版及更高版本中，默认值为 1；在 1.35.1 版及更低版本中，默认值为 2。从 GKE 1.22 开始受支持。

PodResourcePolicy v1 autoscaling.k8s.io

字段

字段
`containerPolicies`	`ContainerResourcePolicy array` 各个容器的一系列资源政策。每个命名容器最多只能有 1 个条目，可以选择性地使用 `containerName =“*”单个通配符条目，该条目可以处理所有不具有单独政策的容器。

containerPolicies

ContainerResourcePolicy array

各个容器的一系列资源政策。每个命名容器最多只能有 1 个条目，可以选择性地使用 `containerName =“*”单个通配符条目，该条目可以处理所有不具有单独政策的容器。

ContainerResourcePolicy v1 autoscaling.k8s.io

字段
`containerName`	`string` 政策适用的容器的名称。如果未指定，则政策将用作默认政策。
`mode`	`ContainerScalingMode` 指定在容器启动时是否将推荐的更新应用于容器，以及在容器的生命周期内是否应用推荐的更新。可能的值为“关闭”和“自动”。如果您未指定值，则默认值为“自动”。
`minAllowed`	`ResourceList` 指定容器允许的最小 CPU 请求和内存请求。默认情况下，不会应用最小值。
`maxAllowed`	`ResourceList` 指定容器允许的最大 CPU 请求和内存请求。默认情况下，不会应用最大值。
`controlledResources`	`[]ResourceName` 指定将由 `VerticalPodAutoscaler` 计算（且可能会应用）的建议类型。如果为空，则默认使用 `[ResourceCPU, ResourceMemory]`。

VerticalPodAutoscalerRecommenderSelector v1 autoscaling.k8s.io

字段

字段
`name`	`string` 负责为此对象生成建议的 Recommender 的名称。

name

string

负责为此对象生成建议的 Recommender 的名称。

VerticalPodAutoscalerStatus v1 autoscaling.k8s.io

字段

字段
`recommendation`	`RecommendedPodResources` 最近推荐的 CPU 和内存请求。
`conditions`	`VerticalPodAutoscalerCondition array` 描述 `VerticalPodAutoscaler` 的当前状态。

recommendation

RecommendedPodResources

最近推荐的 CPU 和内存请求。

conditions

VerticalPodAutoscalerCondition array

描述 VerticalPodAutoscaler 的当前状态。

RecommendedPodResources v1 autoscaling.k8s.io

字段

字段
`containerRecommendations`	`RecommendedContainerResources array` 针对各个容器的一系列资源推荐。

containerRecommendations

RecommendedContainerResources array

针对各个容器的一系列资源推荐。

RecommendedContainerResources v1 autoscaling.k8s.io

字段
`containerName`	`string` 推荐适用的容器的名称。
`target`	`ResourceList` 容器的推荐 CPU 请求和内存请求。
`lowerBound`	`ResourceList` 容器的最小推荐 CPU 请求和内存请求。该数量不足以保证应用的稳定性。使用较小的 CPU 和内存请求运行可能会对性能或可用性产生重大影响。
`upperBound`	`ResourceList` 容器的最大推荐 CPU 请求和内存请求。高于推荐值的 CPU 和内存请求可能会被浪费。
`uncappedTarget`	`ResourceList` 由自动扩缩器计算的最新资源推荐基于实际资源使用情况，而不考虑 ContainerResourcePolicy。如果实际资源使用情况会导致目标违反 ContainerResourcePolicy，则此值可能与限定的建议不同。此字段不会影响实际的资源分配，而是仅用于指示状态。

VerticalPodAutoscalerCondition v1 autoscaling.k8s.io

字段
`type`	`VerticalPodAutoscalerConditionType` 正在描述的条件的类型。可能的值为“RecommendationProvided”、“LowConfidence”、“NoPodsMatched”和“FetchingHistory”。
`status`	`ConditionStatus` 条件的状态。可能的值为True、False和Unknown。
`lastTransitionTime`	`Time` 条件上次从一种状态转换到另一种状态的时间。
`reason`	`string` 上次从一种状态转换到另一种状态的原因。
`message`	`string` 人类可读的字符串，提供有关上次从一种状态转换到另一种状态的详细信息。