Acerca de los eventos del host

Durante la vida útil de una instancia de máquina virtual (VM) o de una instancia de equipo físico, la máquina anfitrión en la que se ejecuta tu instancia puede experimentar varios eventos de host. Un evento de host puede incluir el mantenimiento normal de la infraestructura de Compute Engine o, en casos excepcionales, un error de host. Puedes configurar la política de mantenimiento del host para elegir cómo responden tus instancias de VM y de hardware físico durante un evento de host o después de él.

De forma predeterminada, la mayoría de las instancias están configuradas para migrar en vivo durante los eventos del host. Para todas las series de máquinas, excepto la Z3, puedes anular este comportamiento y establecer de forma explícita que las instancias se detengan y, de manera opcional, se reinicien. Algunos tipos de máquinas no admiten la migración en vivo, como las instancias de Bare Metal, las instancias con GPU adjuntas o las instancias de Z3 con más de 18 TiB de SSD de Titanium adjunto. Estas instancias finalizan durante los eventos del host. Para obtener más información, consulta Comportamientos de mantenimiento y reinicio.

Tipos de eventos del organizador

Existen dos tipos de eventos del host, que se describen con más detalle en las siguientes secciones:

Si la instancia deja de responder, también se puede activar su reinicio o finalización.

Eventos de mantenimiento

Un evento de mantenimiento es cuando Compute Engine debe realizar una actividad de mantenimiento o reparación que requiere que las VMs se muevan del servidor host. Si habilitas la política de mantenimiento del host de migración en vivo para un tipo de instancia compatible, Compute Engine moverá la instancia a un host nuevo y se producirá una interrupción mínima en tu aplicación.

Compute Engine también aplica algunas actualizaciones de hipervisor y redes básicas en segundo plano sin interrupciones, ya que retiene la instancia en el mismo host.

El comportamiento de la instancia durante un evento de mantenimiento puede variar según la tenancy de la instancia y el tipo de máquina. Puedes encontrar información sobre el comportamiento del mantenimiento para cada tipo de máquina en la página de la familia de máquinas correspondiente, de la siguiente manera:

Para obtener información sobre las políticas de mantenimiento de instancias con GPUs adjuntas, consulta Controla eventos de mantenimiento del host de GPU.

En el caso de las VMs de usuario único, la frecuencia aproximada de los eventos de mantenimiento del host planificados es de cada 4 a 6 semanas. La compatibilidad con la migración en vivo depende de la política de mantenimiento del host de la VM de usuario único.

Errores del host

Un error de host (compute.instances.hostError) significa que hubo un problema de hardware o software en la máquina física o la infraestructura del centro de datos que aloja tu instancia de procesamiento, y ese problema causó la falla de la instancia. Un error de host que implica una falla total de hardware o, también, otros problemas de hardware podría evitar la migración en vivo de la instancia. Si la instancia está configurada para reiniciarse automáticamente, que es la configuración predeterminada, Compute Engine reinicia la instancia, por lo general, dentro de los tres minutos posteriores a la detección del error. Según el problema, el reinicio puede tardar hasta 5.5 minutos.

En ocasiones, una instancia de procesamiento puede dejar de responder antes de que se señale un error de host. Puedes reducir el tiempo que Compute Engine espera para reiniciar o finalizar la instancia si configuras el tiempo de espera de recuperación de errores del host. Para obtener más información, consulta Configura políticas de disponibilidad.

Las fallas físicas de hardware y software pueden ocurrir de forma ocasional, pero son casos poco frecuentes. Para proteger tus aplicaciones y servicios de estos eventos del sistema que pueden ser disruptivos, revisa los siguientes recursos:

Descripción general de la política de mantenimiento del host

La política de mantenimiento del host de una instancia determina su comportamiento durante los siguientes eventos del host:

  • Evento de mantenimiento
  • Evento de error del host o instancia que no responde

Puedes configurar las instancias para que se sigan ejecutando durante el mantenimiento del host, mientras que Compute Engine las migra en vivo a otro host, o puedes optar por detener la instancia.

Puedes cambiar la política de mantenimiento del host de una instancia si configuras los siguientes parámetros:

  • Comportamiento de mantenimiento: Indica si la instancia se migra en vivo o se detiene cuando ocurre un evento de mantenimiento.
  • Comportamiento de reinicio: Indica si Compute Engine reinicia o finaliza la instancia si esta falla, experimenta un error de host o deja de responder.
  • Tiempo de detección de error del host: Es la cantidad máxima de tiempo que Compute Engine espera para reiniciar o finalizar una instancia después de detectar que no responde.

Puedes actualizar la política de mantenimiento del host de una instancia en cualquier momento para controlar cómo quieres que se comporten tus instancias.

Comportamientos de mantenimiento y reinicio

Cuando ocurre un evento del host, la instancia de procesamiento puede usar la migración en vivo o se puede finalizar la instancia. Si se finaliza una instancia, puedes optar por reiniciarla tú mismo o hacer que Compute Engine la reinicie automáticamente.

Es posible que las siguientes series de máquinas no admitan la migración en vivo y, en su lugar, requieran la finalización durante los eventos del host:

Migración en vivo

De forma predeterminada, la mayoría de los tipos de instancias están configurados para migrar en vivo, excepto los tipos de instancias mencionados en la sección anterior.

Durante la migración en vivo, Compute Engine migra automáticamente tu instancia lejos de un evento de mantenimiento de infraestructura, y la instancia permanece en ejecución durante la migración. Es posible que la instancia experimente un período breve de disminución del rendimiento, pero, en general, la mayoría de las instancias no deberían tener un rendimiento notablemente diferente. Esto resulta ideal para las instancias que requieren un tiempo de actividad constante y pueden tolerar un período breve de disminución del rendimiento.

Cuando Compute Engine migra tu instancia, informa un evento del sistema que se publica en la lista de operaciones de zona y en los registros de eventos del sistema. Puedes revisar este evento si visualizas las operaciones de Compute Engine para una zona específica. Los eventos de migración en vivo tienen el siguiente tipo de operación:

compute.instances.migrateOnHostMaintenance

Finaliza y reinicia

Si no deseas que tu instancia realice una migración en vivo o si tu tipo de instancia no admite la migración en vivo, puedes permitir queTrusted Cloud by S3NS detenga la instancia cuando ocurra un evento del host. Con esta configuración, si ocurre un evento de host, Compute Engine envía una señal de apagado suave para cerrar la instancia. Luego, espera 60 segundos para que la instancia se apague de forma correcta y establece el estado de la instancia en TERMINATED. Si la instancia no se cierra de forma correcta en 60 segundos, se forzará su finalización.

Esta opción es ideal si tus instancias exigen un rendimiento máximo y constante y, si tu aplicación general está compilada para controlar fallas o reinicios de instancias.

Cuando Compute Engine detiene una instancia debido a un evento del host, informa un evento del sistema que se publica en la lista de operaciones de zona y en los registros de eventos del sistema. Puedes revisar este evento si visualizas las operaciones de Compute Engine para una zona específica. Los eventos de finalización de la instancia tienen el siguiente tipo de operación:

compute.instances.terminateOnHostMaintenance

Reinicio automático

Si la instancia está configurada para detenerse cuando hay un evento de mantenimiento o si falla debido a un problema subyacente en el hardware, Compute Engine puede reiniciarla automáticamente. La instancia se reinicia en el mismo servidor host o se mueve a otro servidor de la misma zona que no participa en el evento de mantenimiento.

De forma predeterminada, Compute Engine intenta recuperar instancias con discos SSD locales conectados durante una hora. Si se alcanza el límite de tiempo, Compute Engine intentará reiniciar la instancia en otro servidor host de la misma zona.

Para configurar el reinicio automático, establece el campo de política de mantenimiento del host automaticRestart en true. Este parámetro de configuración no se aplica si la instancia se desconecta debido a una interrupción zonal o a una operación manual, como la llamada a sudo shutdown dentro del SO invitado.

Cuando Compute Engine reinicia tu instancia de forma automática, informa un evento del sistema que se publica en la lista de operaciones de zona. Puedes revisar este evento si visualizas las operaciones de Compute Engine para una zona específica. Los eventos de reinicio automático tienen el siguiente tipo de operación:

compute.instances.automaticRestart

Persistencia del disco después de la finalización de la instancia

Dado que Hyperdisk son almacenamiento conectado a la red, cuando se reinicia la instancia, Compute Engine vuelve a conectar el disco de arranque y cualquier disco secundario a la instancia. Los datos en esos discos se mantienen durante la migración en vivo y los reinicios de la instancia.

Programación del mantenimiento

Trusted Cloud by S3NS proporciona funciones que permiten un control más estricto sobre el mantenimiento. Si usas ciertas familias de máquinas, puedes especificar las preferencias de mantenimiento y recibir notificaciones sobre los próximos eventos de mantenimiento a través de Cloud Logging, el servidor de metadatos de la instancia, el comando compute instances describe de gcloud CLI o el método instances.describe de REST. Cuando recibes una notificación, tienes un período en el que puedes iniciar el mantenimiento programado en el momento que elijas. Si no activas el mantenimiento programado, el evento de mantenimiento se produce al final del período de notificación, que es la hora programada que se indica en la notificación.

Puedes usar estas funciones junto con la política de mantenimiento del host para personalizar un programa de mantenimiento que se adapte a tu carga de trabajo.

¿Qué sigue?