Gerenciar eventos de manutenção do host da GPU

Este documento discute como minimizar as interrupções das cargas de trabalho de GPU durante um evento de manutenção.

Para saber como monitorar, planejar e realizar manutenção programada em instâncias de máquina virtual (VM) com o Cluster Director, consulte Gerenciar eventos do host em VMs.

Quando o Compute Engine realiza manutenção em uma máquina virtual (VM) com unidades de processamento gráfico (GPUs) anexadas, a VM precisa ser interrompida. Isso ocorre porque as VMs com GPUs anexadas não podem ser migradas em tempo real.

Defina essas VMs para interromper os eventos de manutenção de host. É possível configurar as VMs interrompidas para que sejam reiniciadas automaticamente após a conclusão do evento de manutenção.

Os eventos de manutenção do host geralmente ocorrem uma vez a cada duas semanas, mas podem ser executados com mais frequência.

.

Receber avisos com antecedência antes de eventos de manutenção

Você pode monitorar o cronograma de manutenção da instância de máquina virtual (VM) e preparar as cargas de trabalho para a transição durante a reinicialização do sistema.

Para receber aviso antecipado de eventos do host, monitore o valor de metadados /computeMetadata/v1/instance/maintenance-event. Se a solicitação ao servidor de metadados retornar NONE, a VM não está programada para ser interrompida. Por exemplo, execute o seguinte comando em uma VM:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Se o servidor de metadados retornar TERMINATE_ON_HOST_MAINTENANCE, a instância de VM estará programada para ser encerrada. O Compute Engine fornece às VMs de GPU um aviso de interrupção de uma hora, enquanto as VMs normais recebem apenas um aviso de 60 segundos.

Use esses avisos para configurar seu aplicativo para a transição durante eventos de manutenção do host. Por exemplo, consulte Migrar seus dados temporários dos discos SSD locais neste documento.

Migrar seus dados temporários dos discos SSD locais

Devido à persistência de dados do SSD local, os dados em discos SSD locais anexados a uma VM são irrecuperáveis sempre que o Compute Engine interrompe a VM para eventos de manutenção do host. Se quiser evitar a perda de dados, configure sua carga de trabalho para migrar os dados dos discos SSD locais antes da interrupção da VM. Por exemplo, é possível usar uma das seguintes técnicas:

  • Configure seu aplicativo para migrar o trabalho em andamento temporariamente para um bucket do Cloud Storage e, em seguida, recuperar esses dados após a reinicialização da instância.

  • Grave os dados em um disco permanente secundário. Quando a VM reiniciar automaticamente, o disco permanente poderá ser reanexado e o aplicativo continuará com o trabalho.

A seguir