關於房東事件

在虛擬機器 (VM) 執行個體或裸機執行個體的生命週期內,執行個體執行的主機可能會發生多個主機事件。主機事件可能包括 Compute Engine 基礎架構的定期維護,或極少數情況下的主機錯誤。您可以設定主機維護政策,選擇 VM 和裸機執行個體在主機事件期間或之後的處理方式。

根據預設,大多數執行個體在主機事件期間會即時遷移。除了 Z3 以外的所有機器系列,您都可以覆寫此行為,並明確設定要終止執行個體,以及視需要重新啟動。部分機型不支援即時遷移,例如 Bare Metal 執行個體、附加 GPU 的執行個體,或是附加超過 18 TiB Titanium SSD 的 Z3 執行個體。這些執行個體會在主機事件期間終止。詳情請參閱「維護和重新啟動行為」。

主機事件類型

主機事件分為兩種,詳情請參閱下列各節:

如果執行個體沒有回應,系統也可能會觸發執行個體重新啟動或終止。

維護事件

維護事件是指 Compute Engine 必須執行維護或修復活動,因此需要將 VM 移出主機伺服器。如果為支援的執行個體類型啟用即時遷移 主機維護政策,Compute Engine 會將執行個體移至新主機,應用程式受到的影響極小。

Compute Engine 也會在背景套用一些輕量型管理程序和網路升級,並將執行個體保留在同一部主機上,不會造成中斷。

維護事件期間的執行個體行為,取決於執行個體的租戶和機器類型。如要瞭解各機型的維護作業行為,請前往對應的機器家族頁面,如下所示:

如要瞭解附加 GPU 的執行個體維護政策,請參閱「處理 GPU 主機維護事件」。

如果是單一用戶群 VM,系統大約每 4 到 6 週會進行一次主機維護,是否支援即時遷移取決於單一用戶群 VM 的主機維護政策

主機錯誤

主機錯誤 (compute.instances.hostError) 表示託管運算執行個體的實體機器或資料中心基礎架構發生硬體或軟體問題,導致執行個體當機。如果主機發生硬體全面故障或其他硬體問題,可能導致執行個體即時遷移失敗。如果執行個體設為自動重新啟動 (預設設定),Compute Engine 通常會在偵測到錯誤後三分鐘內重新啟動執行個體。視問題而定,重新啟動最多可能需要 5.5 分鐘。

有時,運算執行個體可能會在主機錯誤發出信號前停止回應。您可以設定主機錯誤復原逾時,縮短 Compute Engine 等待重新啟動或終止執行個體的時間。詳情請參閱「設定供應情形政策」。

實體硬體和軟體故障偶爾會發生,但並不常見。 如要保護應用程式和服務,不受這類可能會造成干擾的系統事件影響,請參閱下列資源:

主機維護政策總覽

執行個體的主機維護政策會決定執行個體在下列主機事件期間的行為:

  • 維護事件
  • 主機錯誤事件或執行個體沒有回應

您可以將執行個體設定為在主機維護期間繼續執行,同時讓 Compute Engine 將執行個體即時遷移至其他主機,或者也可以選擇停止執行個體。

只要設定以下設定,即可變更執行個體的主機維護政策

  • 維護行為:決定執行個體在維護作業期間要即時遷移或停止。
  • 重新啟動行為:如果執行個體當機、發生主機錯誤或沒有回應,Compute Engine 會重新啟動或終止執行個體。
  • 主機錯誤偵測時間:Compute Engine 偵測到執行個體沒有回應後,等待重新啟動或終止執行個體的最長時間。

您隨時可以更新執行個體的主機維護政策,藉此控管執行個體的運作方式。

維護和重新啟動行為

發生主機事件時,運算執行個體可以選擇即時遷移,也可以選擇終止執行個體。如果執行個體遭到終止,您可以選擇自行重新啟動執行個體,或讓 Compute Engine 自動重新啟動。

下列機器系列可能不支援即時遷移,而需要在主機事件期間終止

即時遷移

根據預設,大多數執行個體類型都會設定為即時遷移,但上一節提及的執行個體類型除外。

在即時遷移期間,Compute Engine 會自動將執行個體遷離基礎架構維護事件,且執行個體在遷移過程中會繼續執行。雖然執行個體可能會遭遇效能下降的情況,不過多數執行個體的效能通常不會有明顯差異。這項設定非常適合需要持續運作且容許短期間內效能降低的執行個體。

當 Compute Engine 遷移執行個體時,會回報系統事件並發布至區域作業清單和「系統事件」記錄。您可以查看特定區域的 Compute Engine 作業,以審視這個事件。即時遷移事件具有下列作業類型:

compute.instances.migrateOnHostMaintenance

終止並重新啟動

如果您不希望執行個體即時遷移,或執行個體類型不支援即時遷移,則可以選擇允許Trusted Cloud by S3NS 在發生主機事件時停止執行個體。採用這項設定後,如果發生主機事件,Compute Engine 會傳送軟體關機訊號,關閉執行個體。然後等待 60 秒,讓執行個體徹底關機,並將執行個體狀態設為 TERMINATED。如果執行個體無法在 60 秒內完全關機,系統就會強制終止執行個體。

如果執行個體需要維持穩定一致的最大效能,以及整體應用程式專門用於處理執行個體故障或重新啟動情形,就相當適合使用這個選項。

當 Compute Engine 因主機事件而停止執行個體時,會回報系統事件並發布至區域作業清單和「系統事件」記錄。您可以查看特定區域的 Compute Engine 作業,以審視這個事件。執行個體終止事件具有下列作業類型:

compute.instances.terminateOnHostMaintenance

自動重新啟動

如果您的執行個體設定為在發生維護事件時停止,或者執行個體因基本硬體問題而當機,Compute Engine 可以自動重新啟動執行個體。執行個體會在同一部主機伺服器上重新啟動,或是移至同一個可用區中未參與維護作業的另一部伺服器。

根據預設,Compute Engine 會嘗試復原連有本機 SSD 磁碟的執行個體一小時。如果達到時間限制,Compute Engine 會嘗試在同一個可用區的不同主機伺服器上重新啟動執行個體。

如要設定自動重新啟動,請將主機維護政策欄位 automaticRestart 設為 true。如果執行個體因區域服務中斷或手動操作 (例如在訪客 OS 中呼叫 sudo shutdown) 而終止運作,則不適用這項設定。

當 Compute Engine 自動重新啟動執行個體時,會回報系統事件並發布至區域作業清單。您可以查看特定區域的 Compute Engine 作業,以審視這個事件。自動重新啟動事件具有下列作業類型:

compute.instances.automaticRestart

執行個體終止後磁碟的持續性

由於 Hyperdisk 是網路附加儲存空間,因此執行個體重新啟動時,Compute Engine 會將開機磁碟和所有次要磁碟重新附加至執行個體。系統在即時遷移及重新啟動執行個體後,仍會保留這些磁碟上的資料。

維護作業排程

Trusted Cloud by S3NS 提供相關功能,可更嚴格地控管維護作業。使用特定機器系列時,您可以指定維護偏好設定,並透過 Cloud Logging、執行個體的中繼資料伺服器、gcloud CLI compute instances describe 指令或 REST instances.describe 方法,接收即將進行維護作業的通知。收到通知後,您可以在一段時間內,選擇合適的時間開始進行預定維護作業。如果未觸發排定的維護作業,維護事件會在通知時間範圍結束時發生,也就是通知中列出的排定時間。

您可以搭配主機維護政策使用這些功能,自訂符合工作負載需求的維護時間表。

後續步驟