Sobre os eventos de host

Durante o ciclo de vida de uma instância de máquina virtual (VM) ou bare metal, a máquina host em que a instância é executada pode passar por vários eventos de host. Um evento de host pode incluir a manutenção regular da infraestrutura do Compute Engine ou, em casos raros, um erro de host. É possível escolher como as instâncias de VM e bare metal respondem durante ou após um evento de host configurando a política de manutenção do host.

Por padrão, a maioria das instâncias é definida como migração em tempo real durante eventos de host. Para todas as séries de máquinas, exceto a Z3, é possível substituir esse comportamento e definir explicitamente que as instâncias sejam encerradas e, opcionalmente, reiniciadas. Alguns tipos de máquina não oferecem suporte à migração em tempo real, como instâncias bare metal, instâncias com GPUs anexadas ou instâncias Z3 com mais de 18 TiB de SSD Titanium anexado. Essas instâncias são encerradas durante eventos de host. Para mais informações, consulte Comportamentos de manutenção e reinicialização.

Tipos de eventos de host

Há dois tipos de eventos do host, que são descritos em mais detalhes nas seções a seguir:

Se a instância não responder, isso também poderá acionar uma reinicialização ou encerramento dela.

Eventos de manutenção

Um evento de manutenção ocorre quando o Compute Engine precisa realizar uma atividade de manutenção ou reparo que exige a remoção das VMs do servidor host. Se você ativar a migração em tempo real política de manutenção do host para um tipo de instância compatível, o Compute Engine moverá a instância para um novo host, e haverá uma interrupção mínima no aplicativo.

O Compute Engine também aplica alguns hipervisores leves e upgrades de rede em segundo plano sem interrupções, mantendo a instância no mesmo host.

O comportamento da instância durante um evento de manutenção pode variar dependendo da locação da instância e do tipo de máquina. Você pode encontrar informações sobre o comportamento de manutenção de cada tipo de máquina na página da família de máquinas correspondente, da seguinte forma:

Para informações sobre as políticas de manutenção de instâncias com GPUs anexadas, consulte Como lidar com eventos de manutenção do host da GPU.

Para VMs de locatário individual, a frequência aproximada de eventos de manutenção planejada do host é a cada quatro a seis semanas. A compatibilidade com a migração em tempo real depende da política de manutenção do host da VM de locatário individual.

Erros de host

Um erro de host (compute.instances.hostError) significa que houve um problema de hardware ou software na máquina física ou na infraestrutura do data center que hospeda a instância de computação, causando a falha dela. Um erro de host que envolve uma falha total de hardware ou outros problemas de hardware pode impedir a migração em tempo real da sua instância. Se a instância estiver configurada para reiniciar automaticamente, o que é a configuração padrão, o Compute Engine a reiniciará, normalmente em três minutos a partir do momento em que o erro foi detectado. Dependendo do problema, a reinicialização pode levar até 5,5 minutos.

Às vezes, uma instância de computação pode não responder antes que um erro do host seja sinalizado. É possível reduzir o tempo que o Compute Engine aguarda para reiniciar ou encerrar a instância definindo o tempo limite de recuperação de erros do host. Para mais informações, consulte Definir políticas de disponibilidade.

Falhas físicas de hardware e software podem acontecer ocasionalmente, mas são raras. Para proteger aplicativos e serviços contra esses eventos de sistema potencialmente prejudiciais, analise os seguintes recursos:

Visão geral da política de manutenção do host

A política de manutenção do host de uma instância determina como ela se comporta durante os seguintes eventos do host:

  • Evento de manutenção
  • Evento de erro do host ou instância que não está respondendo

É possível configurar as instâncias para continuarem em execução durante a manutenção do host, enquanto o Compute Engine as migra em tempo real para outro host ou você pode interromper a instância.

É possível mudar a política de manutenção do host de uma instância definindo as seguintes configurações:

  • Comportamento de manutenção:se a instância é migrada em tempo real ou interrompida quando há um evento de manutenção.
  • Comportamento de reinicialização:se o Compute Engine reinicia ou encerra a instância caso ela falhe, apresente um erro de host ou pare de responder.
  • Tempo de detecção de erros do host:o tempo máximo que o Compute Engine aguarda para reiniciar ou encerrar uma instância depois de detectar que ela não está respondendo.

Você pode atualizar a política de manutenção do host de uma instância a qualquer momento para controlar como as instâncias devem se comportar.

Comportamentos de manutenção e reinicialização

Quando um evento de host ocorre, a instância de computação pode usar a migração em tempo real ou ser encerrada. Se uma instância for encerrada, você poderá reiniciar a instância por conta própria ou fazer com que o Compute Engine a reinicie automaticamente.

As seguintes séries de máquinas podem não oferecer suporte à migração em tempo real e, em vez disso, exigem encerramento durante eventos do host:

Migração em tempo real

Por padrão, a maioria dos tipos de instância é definida como migração em tempo real, exceto os tipos de instância mencionados na seção anterior.

Durante a migração em tempo real, o Compute Engine migra automaticamente sua instância para longe de um evento de manutenção de infraestrutura, e ela permanece em execução durante a migração. A instância pode ter um curto período de desempenho reduzido, mas, em geral, a maioria das instâncias não tem um desempenho notavelmente diferente. Isso é ideal para instâncias que exigem tempo de atividade constante e podem tolerar um período curto de desempenho reduzido.

Ao migrar a instância, o Compute Engine informa um evento de sistema que é publicado na lista de operações de zona e nos registros de eventos do sistema. É possível analisar esse evento ao visualizar as operações do Compute Engine para uma zona específica. Os eventos de migração em tempo real têm o seguinte tipo de operação:

compute.instances.migrateOnHostMaintenance

Encerrar e reiniciar

Se você não quiser que a instância seja migrada em tempo real ou se o tipo de instância não oferecer suporte a esse recurso, permita que o Trusted Cloud by S3NS interrompa a instância quando ocorrer um evento do host. Com essa configuração, se ocorrer um evento do host, o Compute Engine enviará um sinal de desligamento suave para encerrar a instância. Em seguida, ele aguarda 60 segundos para que a instância seja encerrada corretamente e define o status da instância como TERMINATED. Se a instância não for encerrada corretamente em 60 segundos, ela será encerrada.

Essa opção é ideal se as instâncias exigirem desempenho máximo constante e se o aplicativo geral for criado para lidar com falhas ou reinicializações da instância.

Quando o Compute Engine interrompe uma instância devido a um evento de host, ele informa um evento de sistema que é publicado na lista de operações de zona e nos registros de eventos do sistema. É possível analisar esse evento ao visualizar as operações do Compute Engine para uma zona específica. Os eventos de encerramento de instância têm o seguinte tipo de operação:

compute.instances.terminateOnHostMaintenance

Reinicialização automática

Se a instância estiver configurada para ser interrompida quando houver um evento de manutenção ou se ela falhar devido a um problema de hardware subjacente, o Compute Engine poderá reiniciar a instância automaticamente. A instância é reiniciada no mesmo servidor host ou movida para outro servidor na mesma zona que não está participando do evento de manutenção.

Por padrão, o Compute Engine tenta recuperar instâncias com discos SSD locais anexados por uma hora. Se o limite de tempo for atingido, o Compute Engine tentará reiniciar a instância em um servidor host diferente na mesma zona.

Para configurar a reinicialização automática, defina o campo da política de manutenção do host automaticRestart como true. Essa configuração não se aplica se a instância ficar off-line devido a uma interrupção zonal ou por operação manual, como chamar sudo shutdown no SO convidado.

Quando o Compute Engine reinicializa a instância automaticamente, ele informa um evento de sistema publicado na lista de operações de zona. É possível analisar esse evento ao visualizar as operações do Compute Engine para uma zona específica. Os eventos de reinicialização automática têm o seguinte tipo de operação:

compute.instances.automaticRestart

Persistência do disco após o encerramento da instância

Como o disco permanente são armazenamento conectado à rede, quando a instância é reiniciada, o Compute Engine reconecta o disco de inicialização e todos os discos secundários à instância. Os dados nesses discos permanecem durante a migração em tempo real e as reinicializações de instâncias.

Programação de manutenção

OTrusted Cloud by S3NS oferece recursos que permitem maior controle da manutenção. Ao usar determinadas famílias de máquinas, é possível especificar preferências de manutenção e receber notificações de eventos de manutenção futuros pelo Cloud Logging, o servidor de metadados da instância, o comando compute instances describe da gcloud CLI ou o método instances.describe REST. Ao receber uma notificação, você tem um período em que pode iniciar a manutenção programada no horário que preferir. Se você não acionar a manutenção programada, o evento de manutenção vai ocorrer no final do período de notificação, que é o horário programado listado na notificação.

É possível usar esses recursos em combinação com a política de manutenção do host para personalizar uma programação de manutenção que se adapte à sua carga de trabalho.

A seguir