在虚拟机 (VM) 实例的底层硬件上的计划内维护事件期间,主机服务器不可用。为了在主机事件期间让实例保持运行状态,Compute Engine 会将实例实时迁移到同一可用区中的其他主机服务器。如需详细了解主机事件,请参阅主机事件简介。
借助实时迁移, Trusted Cloud by S3NS 可以在不中断工作负载、重启实例或修改实例的任何属性(例如 IP 地址、元数据、块存储数据、应用状态或网络设置)的情况下执行维护。
实时迁移会在以下情况下让实例保持运行状态:
基础架构维护。基础架构维护包括数据中心中的主机硬件、网络和电网以及主机操作系统 (OS) 和 BIOS。
与安全相关的更新和系统配置更改。这包括安装安全补丁以及更改主机根分区的大小以存储主机操作系统映像和软件包等事件。
硬件故障。 这包括内存、CPU、网络接口卡和磁盘故障。如果在服务器完全无法运行之前检测到故障,Compute Engine 会将实例预防性地实时迁移到新的主机服务器。如果硬件完全无法运行或阻止实时迁移,则实例会终止并自动重启。
Compute Engine 仅会实时迁移将主机维护政策设置为迁移的虚拟机。如需了解如何更改主机维护政策,请参阅设置虚拟机主机维护政策。
限制
以下虚拟机类型不支持实时迁移:
- 裸金属实例。使用裸金属机器类型创建的实例不支持实时迁移。这些实例的维护行为分别设置为
TERMINATE
和RESTART
。 - 机密虚拟机实例。所有机密虚拟机类型必须设置为停止并视情况重启。如需了解详情,请参阅实时迁移。
实时迁移过程的工作原理
当虚拟机计划进行实时迁移时,Compute Engine 会提供通知,以便您为此实时迁移中断做好工作负载和应用准备。在实时迁移期间, Trusted Cloud by S3NS 观察到最短中断时间,通常短于 1 秒。如果虚拟机未设置为实时迁移,则 Compute Engine 会在主机维护期间终止虚拟机。设置为在主机事件期间终止的虚拟机会停止并(可选)重启。
当 Trusted Cloud by S3NS 将正在运行的虚拟机从一个主机迁移到另一个主机时,会以一种对于客机操作系统及与之进行通信的任何项都透明的方式,将完整的虚拟机状态从来源位置迁移到目标位置。 为确保该过程无缝完成,需要使用许多组件。
该过程开始后,系统会发出一个关于需要将虚拟机从当前宿主机中迁移的通知。该通知的开头可能会阐明文件变更(指示有新的 BIOS 版本可用)、硬件操作计划维护或可预见的硬件故障自动发出的信号。
Trusted Cloud by S3NS的集群管理软件会持续监控这些事件,并根据控制数据中心的政策(例如容量利用率和每位客户可以同时迁移的虚拟机数量)安排这些事件发生的时间。
在选定要迁移的虚拟机后, Trusted Cloud by S3NS 会通知客机即将进行迁移。等待一段时间后,系统会选择一个目标主机,并要求该主机设置一个新的空“目标”虚拟机,用于接收要迁移的“来源”虚拟机。可使用身份验证在源位置和目标位置之间建立连接。
虚拟机迁移过程分为以下三个阶段:
来源位置服务降级。虚拟机仍在来源位置运行,而大部分状态会从来源位置发送到目标位置。例如,Trusted Cloud by S3NS 会将所有访客内存复制到目标位置,同时跟踪源位置中已更改的页面。源限能所花费的时间是访客内存大小和页面更改速率的函数。
中断阶段。这是一段非常短暂的时刻。在这段时间内,来源虚拟机不会在任何位置运行,并会处于暂停状态,而系统会发送开始在目标位置运行虚拟机所需的所有剩余状态。在来源位置服务降级阶段,当发送状态变化达到回报递减点时,虚拟机会进入中断阶段。系统会使用某种算法来根据客机虚拟机做出更改的速率平衡要发送的内存字节数。
在中断事件期间,系统时钟会显示为向前跳转,最多 5 秒。如果中断事件超过 5 秒, Trusted Cloud by S3NS 会使用包含在虚拟机客机软件包中的守护程序停止并重新同步时钟。
目标位置服务降级。虚拟机会在目标虚拟机上运行。来源虚拟机仍然存在,并且可以为目标虚拟机提供支持。例如,源虚拟机将为进出目标虚拟机的数据包提供转发服务,直到网络架构与目标虚拟机的新位置一致。
最终,迁移会完成,并且系统会删除源虚拟机。您可以在虚拟机的 Cloud Logging 日志中查看迁移的具体情况。
实时迁移单租户虚拟机
工作负载运行时,您可能需要将虚拟机迁移到其他单租户节点或节点组。如果您将虚拟机移动到一组节点,Compute Engine 会确定要将虚拟机放置在哪个节点上。如需了解单独租用,请参阅单独租用概览。
如需将单租户虚拟机迁移到其他节点或节点组,您可以手动启动实时迁移。您也可以手动启动实时迁移,以将多租户主机上的虚拟机迁移到单租户节点。如需了解详情,请参阅手动实时迁移虚拟机。
后续步骤
设置虚拟机主机维护政策选项以将您的实例配置为实时迁移。
请阅读有关设计可处理服务中断情况的可靠系统的提示。