ホストイベントについて

仮想マシン(VM)インスタンスまたはベアメタル インスタンスの存続期間中、インスタンスが実行されているホストマシンで複数のホストイベントが発生する可能性があります。ホストイベントには、Compute Engine インフラストラクチャの定期メンテナンスが含まれます。また、まれにホストエラーが含まれることもあります。ホスト メンテナンス ポリシーを構成することで、ホストイベントの発生中または発生後に VM インスタンスとベアメタル インスタンスがどのように応答するかを選択できます。

デフォルトでは、ほとんどのインスタンスはホストイベント中にライブ マイグレーションされるように設定されます。この動作をオーバーライドして、インスタンスを終了し、必要に応じて再起動するように明示的に設定できます。一部のマシンタイプ(18 TiB を超える Titanium SSD がアタッチされた Z3 インスタンス、ベアメタル インスタンス、GPU がアタッチされたインスタンスなど)は、ライブ マイグレーションをサポートしていません。これらのインスタンスは、ホストイベント中に終了されます。詳細については、メンテナンスと再起動の動作をご覧ください。

ホストイベントの種類

ホストイベントには次の 2 種類があります。次のセクションで詳しく説明します。

インスタンスが応答しなくなった場合にも、インスタンスの再起動または終了がトリガーされることがあります。

メンテナンス イベント

メンテナンス イベントとは、Compute Engine がメンテナンスまたは修復アクティビティを実行するために VM をホストサーバーから移動する必要がある場合のことを指します。サポートされているインスタンス タイプでライブ マイグレーションホスト メンテナンス ポリシーを有効にすると、Compute Engine によってインスタンスが新しいホストに移動されるため、アプリケーションの停止が最小限に抑えられます。

また、Compute Engine は、同じホストにインスタンスを保持することで、軽量のハイパーバイザとネットワークのアップグレードをバックグラウンドで無停止で適用します。

メンテナンス イベント中のインスタンスの動作は、インスタンスのテナンシーとマシンタイプによって異なる場合があります。各マシンタイプのメンテナンス動作については、次の各マシン ファミリーのページをご覧ください。

特定のマシンシリーズのメンテナンス ポリシーについては、マシンシリーズの比較を確認してください。

単一テナント VM の場合、計画されたホスト メンテナンス イベントのおおよその頻度は 4~6 週間ごとです。ライブ マイグレーションのサポートは、単一テナント VM のホスト メンテナンス ポリシーによって異なります。

ホストエラー

ホストエラー(compute.instances.hostError)は、コンピューティング インスタンスをホストしている物理マシンまたはデータセンター インフラストラクチャで、インスタンスがクラッシュするようなハードウェアまたはソフトウェアの問題が発生したことを意味します。ハードウェア全体の障害やその他のハードウェアの問題でホストエラーが発生すると、インスタンスのライブ マイグレーションが停止することがあります。インスタンスが自動的に再起動するように設定されている場合(デフォルト設定)、Compute Engine は通常、エラーが検出されてから 3 分以内にインスタンスを再起動します。問題によっては、再起動に最大 5.5 分かかります。

ホストエラーが通知される前に、コンピューティング インスタンスが応答しなくなる場合があります。ホストエラー回復タイムアウトを設定することで、Compute Engine がインスタンスの再起動または終了を待機する時間を短縮できます。詳細については、可用性ポリシーを設定するをご覧ください。

物理的なハードウェアとソフトウェアの障害は、発生する可能性はありますが、まれな現象です。起こりうる破壊的なシステム イベントからアプリケーションやサービスを保護するため、次の方策を確認してください。

ホスト メンテナンス ポリシーの概要

インスタンスのホスト メンテナンス ポリシーは、次のホストイベント中にインスタンスがどのように動作するかを決定します。

  • メンテナンス イベント
  • ホストエラー イベントまたはインスタンスの応答停止

Compute Engine がインスタンスを別のホストへライブ マイグレーションし、ホストのメンテナンス中もインスタンスの実行を継続するように構成できます。また、インスタンスの停止を選択することもできます。

インスタンスのホスト メンテナンス ポリシーを変更するには、次の設定を構成します。

  • メンテナンスの動作: メンテナンス イベントが発生した場合にインスタンスをライブ マイグレーションするか、または停止するかを設定します。
  • 再起動の動作: インスタンスがクラッシュした場合、ホストエラーが発生した場合、または応答しなくなった場合に、Compute Engine がインスタンスを再起動するか終了するかを設定します。
  • ホストエラー検出時間: インスタンスが応答していないことを検出した後、Compute Engine がインスタンスの再起動または終了を行うまで待機する最大時間を設定します。

インスタンスのホスト メンテナンス ポリシーはインスタンスの動作を定義します。このポリシーはいつでも更新できます。

メンテナンスと再起動の動作

ホストイベントが発生した場合、コンピューティング インスタンスをライブ マイグレーションするか、またはインスタンスを終了できます。インスタンスが終了した場合は、インスタンスを手動で再起動するか、Compute Engine に自動的に再起動させるかを選択できます。

次のマシンシリーズはライブ マイグレーションをサポートしていないため、ホストイベント中に終了する必要があります。

ライブ マイグレーション

デフォルトでは、ほとんどのインスタンス タイプはライブ マイグレーションされるよう設定されています。ただし、前のセクションで説明したインスタンス タイプは除きます。

ライブ マイグレーション中、Compute Engine はインスタンスを自動的に移行し、インフラストラクチャのメンテナンス イベントの影響を回避します。インスタンスはマイグレーション中も実行されます。通常、ほとんどのインスタンスのパフォーマンスには大きな影響が及ぶことはありませんが、インスタンスのパフォーマンスが一時的に低下することがまれにあります。継続的な稼働時間を必要とし、一時的なパフォーマンスの低下を許容できるインスタンスにとって、この設定は最適です。

インスタンスを移行する際、Compute Engine はゾーン オペレーションのリストとシステム イベントログにパブリッシュされているシステム イベントを報告します。このイベントを確認するには、特定のゾーンに対する Compute Engine のオペレーションを表示します。ライブ マイグレーション イベントには、次のオペレーション タイプがあります。

compute.instances.migrateOnHostMaintenance

終了して再起動

インスタンスをライブ マイグレーションしない場合や、インスタンス タイプがライブ マイグレーションをサポートしていない場合は、代わりに、ホストイベントが発生したときにTrusted Cloud by S3NS がインスタンスを停止できるようにします。この構成では、ホストイベントが発生すると、Compute Engine はソフト パワーオフ信号を送信してインスタンスをシャットダウンします。その後、インスタンスが完全にシャットダウンするまで 60 秒間待機し、インスタンスのステータスを TERMINATED に設定します。インスタンスが 60 秒以内に正常にシャットダウンしない場合、インスタンスは強制的に終了されます。

インスタンスが常に最大のパフォーマンスを必要とし、アプリケーション全体がインスタンスの障害や再起動を処理するように構築されている場合は、このオプションが最適です。

ホストイベントが原因で Compute Engine がインスタンスを停止すると、ゾーン オペレーションのリストとシステム イベントログにパブリッシュされているシステム イベントが報告されます。このイベントを確認するには、特定のゾーンに対する Compute Engine のオペレーションを表示します。インスタンスの終了イベントには、次のオペレーション タイプがあります。

compute.instances.terminateOnHostMaintenance

自動再起動

メンテナンス イベントが発生したとき、または基盤となるハードウェアの問題でインスタンスがクラッシュしたときにインスタンスを停止するように構成している場合、Compute Engine はインスタンスを自動的に再起動できます。インスタンスは、同じホストサーバーで再起動するか、メンテナンス イベントに参加していない同じゾーンの別のサーバーに移動されます。

デフォルトでは、Compute Engine は、アタッチされたローカル SSD ディスクを使用してインスタンスの復元を 1 時間試みます。時間制限に達すると、Compute Engine は同じゾーンの別のホストサーバーでインスタンスの再起動を試みます。

自動再起動を構成するには、ホスト メンテナンス ポリシーのフィールド automaticRestarttrue に設定します。この設定は、ゾーンの停止が原因でインスタンスがオフラインになった場合、またはゲスト OS 内で sudo shutdown を呼び出すなどの手動操作によってインスタンスがオフラインになった場合には適用されません。

インスタンスを自動的に再起動する際、Compute Engine はゾーン オペレーションのリストに公開されているシステム イベントを報告します。このイベントを確認するには、特定のゾーンに対する Compute Engine のオペレーションを表示します。自動再起動イベントには、次のオペレーション タイプがあります。

compute.instances.automaticRestart

インスタンス終了後のディスクの永続性

Hyperdisk はネットワーク接続ストレージであるため、インスタンスの再起動時に、Compute Engine はブートディスクとセカンダリ ディスクをインスタンスに再アタッチします。これらのディスク上のデータは、ライブ マイグレーション後やインスタンスの再起動後も維持されます。

メンテナンスのスケジュール設定

Trusted Cloud by S3NS には、メンテナンスをより厳密に管理できる機能が用意されています。特定のマシン ファミリーを使用すると、メンテナンス設定を指定し、Cloud Logging、インスタンスのメタデータ サーバー、gcloud CLI compute instances describe コマンド、または REST instances.describe メソッドから今後のメンテナンス イベントの通知を受け取ることができます。通知の受け取り後は、一定の期間内の任意の時間に、スケジュールされたメンテナンスを開始できます。スケジュール設定されたメンテナンスをトリガーしない場合、メンテナンス イベントは通知期間の終了時に発生します。通知期間は、通知に記載されているスケジュール時間です。

これらの機能とホスト メンテナンス ポリシーを組み合わせて、ワークロードに適したメンテナンス スケジュールをカスタマイズできます。

次のステップ