このページの一部またはすべての情報は、S3NS の Cloud de Confiance に適用されない場合があります。詳細については、Google Cloud との違いをご確認ください。

ホストイベントについて

仮想マシン（VM）インスタンスまたはベアメタルインスタンスの存続期間中、インスタンスが実行されているホストマシンで複数のホストイベントが発生する可能性があります。ホストイベントには、Compute Engine インフラストラクチャの定期メンテナンスが含まれます。また、まれにホストエラーが含まれることもあります。ホストメンテナンスポリシーを構成することで、ホストイベントの発生中または発生後に VM インスタンスとベアメタルインスタンスがどのように応答するかを選択できます。

デフォルトでは、ほとんどのインスタンスはホストイベント中にライブマイグレーションされるように設定されます。Z3 以外のすべてのマシンシリーズでは、この動作をオーバーライドして、インスタンスを終了し、必要に応じて再起動するように明示的に設定できます。一部のマシンタイプ（H4D インスタンス、ベアメタルインスタンス、GPU がアタッチされたインスタンス、18 TiB を超える Titanium SSD がアタッチされた Z3 インスタンスなど）は、ライブマイグレーションをサポートしていません。これらのインスタンスは、ホストイベント中に終了されます。詳細については、メンテナンスと再起動の動作をご覧ください。

ホストイベントの種類

ホストイベントには次の 2 種類があります。次のセクションで詳しく説明します。

メンテナンスイベント
ホストエラー

インスタンスが応答しなくなった場合にも、インスタンスの再起動または終了がトリガーされることがあります。

メンテナンスイベント

メンテナンスイベントとは、Compute Engine がメンテナンスまたは修復アクティビティを実行するために VM をホストサーバーから移動する必要がある場合のことを指します。サポートされているインスタンスタイプでライブマイグレーションのホストメンテナンスポリシーを有効にすると、Compute Engine によってインスタンスが新しいホストに移動されるため、アプリケーションの停止が最小限に抑えられます。

また、Compute Engine は、同じホストにインスタンスを保持することで、軽量のハイパーバイザとネットワークのアップグレードをバックグラウンドで無停止で適用します。

メンテナンスイベント中のインスタンスの動作は、インスタンスのテナンシーとマシンタイプによって異なる場合があります。各マシンタイプのメンテナンス動作については、次の各マシンファミリーのページをご覧ください。

C シリーズ:
- C2 と C2D: コンピューティング最適化マシンファミリー
- その他のすべての C シリーズ: 汎用マシンファミリー
E、N、T シリーズ: 汎用マシンファミリー
H シリーズ: コンピューティング最適化マシンファミリー
M シリーズと X シリーズ: メモリ最適化マシンファミリー
Z シリーズ: ストレージ最適化マシンファミリー

GPU がアタッチされたインスタンスのメンテナンスポリシーについては、GPU ホストメンテナンスイベントを処理するをご覧ください。

単一テナント VM の場合、計画されたホストメンテナンスイベントのおおよその頻度は 4～6 週間ごとです。ライブマイグレーションのサポートは、単一テナント VM のホストメンテナンスポリシーによって異なります。

ホストエラー

ホストエラー（compute.instances.hostError）は、コンピューティングインスタンスをホストしている物理マシンまたはデータセンターインフラストラクチャで、インスタンスがクラッシュするようなハードウェアまたはソフトウェアの問題が発生したことを意味します。ハードウェア全体の障害やその他のハードウェアの問題でホストエラーが発生すると、インスタンスのライブマイグレーションが停止することがあります。インスタンスが自動的に再起動するように設定されている場合（デフォルト設定）、Compute Engine は通常、エラーが検出されてから 3 分以内にインスタンスを再起動します。問題によっては、再起動に最大 5.5 分かかります。

ホストエラーが通知される前に、コンピューティングインスタンスが応答しなくなる場合があります。ホストエラー回復タイムアウトを設定することで、Compute Engine がインスタンスの再起動または終了を待機する時間を短縮できます。詳細については、可用性ポリシーを設定するをご覧ください。

物理的なハードウェアとソフトウェアの障害は、発生する可能性はありますが、まれな現象です。起こりうる破壊的なシステムイベントからアプリケーションやサービスを保護するため、次の方策を確認してください。

ホストメンテナンスポリシーの概要

インスタンスのホストメンテナンスポリシーは、次のホストイベント中にインスタンスがどのように動作するかを決定します。

メンテナンスイベント
ホストエラーイベントまたはインスタンスの応答停止

Compute Engine がインスタンスを別のホストへライブマイグレーションし、ホストのメンテナンス中もインスタンスの実行を継続するように構成できます。また、インスタンスの停止を選択することもできます。

インスタンスのホストメンテナンスポリシーを変更するには、次の設定を構成します。

メンテナンスの動作: メンテナンスイベントが発生した場合にインスタンスをライブマイグレーションするか、または停止するかを設定します。
再起動の動作: インスタンスがクラッシュした場合、ホストエラーが発生した場合、または応答しなくなった場合に、Compute Engine がインスタンスを再起動するか終了するかを設定します。
ホストエラー検出時間: インスタンスが応答していないことを検出した後、Compute Engine がインスタンスの再起動または終了を行うまで待機する最大時間を設定します。

インスタンスのホストメンテナンスポリシーはインスタンスの動作を定義します。このポリシーはいつでも更新できます。

メンテナンスと再起動の動作

ホストイベントが発生した場合、コンピューティングインスタンスをライブマイグレーションするか、またはインスタンスを終了できます。インスタンスが終了した場合は、インスタンスを手動で再起動するか、Compute Engine に自動的に再起動させるかを選択できます。

次のマシンシリーズはライブマイグレーションをサポートしていないため、ホストイベント中に終了する必要があります。

ベアメタルインスタンスは終了して再起動します。つまり、別のホストで再起動される可能性があります。詳細については、マシンシリーズの「メンテナンスエクスペリエンス」のドキュメントをご覧ください。たとえば、C3 ベアメタルマシンタイプについては、C3 インスタンスのメンテナンスエクスペリエンスをご覧ください。
AMD SEV を実行する AMD EPYC Milan CPU プラットフォームの N2D マシンタイプを除く、Confidential VM インスタンス。
GPU を使用するインスタンス
TPU を使用するインスタンス

ライブマイグレーション

デフォルトでは、ほとんどのインスタンスタイプはライブマイグレーションされるよう設定されています。ただし、前のセクションで説明したインスタンスタイプは除きます。

ライブマイグレーション中、Compute Engine はインスタンスを自動的に移行し、インフラストラクチャのメンテナンスイベントの影響を回避します。インスタンスはマイグレーション中も実行されます。通常、ほとんどのインスタンスのパフォーマンスには大きな影響が及ぶことはありませんが、インスタンスのパフォーマンスが一時的に低下することがまれにあります。継続的な稼働時間を必要とし、一時的なパフォーマンスの低下を許容できるインスタンスにとって、この設定は最適です。

インスタンスを移行する際、Compute Engine はゾーンオペレーションのリストとシステムイベントログにパブリッシュされているシステムイベントを報告します。このイベントを確認するには、特定のゾーンに対する Compute Engine のオペレーションを表示します。ライブマイグレーションイベントには、次のオペレーションタイプがあります。

compute.instances.migrateOnHostMaintenance

終了して再起動

インスタンスをライブマイグレーションしない場合や、インスタンスタイプがライブマイグレーションをサポートしていない場合は、代わりに、ホストイベントが発生したときにCloud de Confiance by S3NS がインスタンスを停止できるようにします。この構成では、ホストイベントが発生すると、Compute Engine はソフトパワーオフ信号を送信してインスタンスをシャットダウンします。その後、インスタンスが完全にシャットダウンするまで 60 秒間待機し、インスタンスのステータスを TERMINATED に設定します。インスタンスが 60 秒以内に正常にシャットダウンしない場合、インスタンスは強制的に終了されます。

インスタンスが常に最大のパフォーマンスを必要とし、アプリケーション全体がインスタンスの障害や再起動を処理するように構築されている場合は、このオプションが最適です。

ホストイベントが原因で Compute Engine がインスタンスを停止すると、ゾーンオペレーションのリストとシステムイベントログにパブリッシュされているシステムイベントが報告されます。このイベントを確認するには、特定のゾーンに対する Compute Engine のオペレーションを表示します。インスタンスの終了イベントには、次のオペレーションタイプがあります。

compute.instances.terminateOnHostMaintenance

自動再起動

メンテナンスイベントが発生したとき、または基盤となるハードウェアの問題でインスタンスがクラッシュしたときにインスタンスを停止するように構成している場合、Compute Engine はインスタンスを自動的に再起動できます。インスタンスは、同じホストサーバーで再起動するか、メンテナンスイベントに参加していない同じゾーンの別のサーバーに移動されます。

デフォルトでは、Compute Engine は、アタッチされたローカル SSD ディスクを使用してインスタンスの復元を 1 時間試みます。時間制限に達すると、Compute Engine は同じゾーンの別のホストサーバーでインスタンスの再起動を試みます。

自動再起動を構成するには、ホストメンテナンスポリシーのフィールド automaticRestart を true に設定します。この設定は、ゾーンの停止が原因でインスタンスがオフラインになった場合、またはゲスト OS 内で sudo shutdown を呼び出すなどの手動操作によってインスタンスがオフラインになった場合には適用されません。

インスタンスを自動的に再起動する際、Compute Engine はゾーンオペレーションのリストに公開されているシステムイベントを報告します。このイベントを確認するには、特定のゾーンに対する Compute Engine のオペレーションを表示します。自動再起動イベントには、次のオペレーションタイプがあります。

compute.instances.automaticRestart

インスタンス終了後のディスクの永続性

Hyperdisk はネットワーク接続ストレージであるため、インスタンスの再起動時に、Compute Engine はブートディスクとセカンダリディスクをインスタンスに再アタッチします。これらのディスク上のデータは、ライブマイグレーション後やインスタンスの再起動後も維持されます。

メンテナンスのスケジュール設定

Cloud de Confiance by S3NS には、メンテナンスをより厳密に管理できる機能が用意されています。特定のマシンファミリーを使用すると、メンテナンス設定を指定し、Cloud Logging、インスタンスのメタデータサーバー、gcloud CLI compute instances describe コマンド、または REST instances.describe メソッドから今後のメンテナンスイベントの通知を受け取ることができます。通知の受け取り後は、一定の期間内の任意の時間に、スケジュールされたメンテナンスを開始できます。スケジュール設定されたメンテナンスをトリガーしない場合、メンテナンスイベントは通知期間の終了時に発生します。通知期間は、通知に記載されているスケジュール時間です。

これらの機能とホストメンテナンスポリシーを組み合わせて、ワークロードに適したメンテナンススケジュールをカスタマイズできます。