Nel corso del ciclo di vita di un'istanza di macchina virtuale (VM) o di un'istanza bare metal, la macchina host su cui viene eseguita l'istanza può essere soggetta a numerosi eventi host. Un evento host può includere la normale manutenzione dell'infrastruttura Compute Engine o, in rari casi, un errore dell'host. Puoi scegliere in che modo le istanze VM e bare metal rispondono durante o dopo un evento host configurando la policy di manutenzione dell'host.
Per impostazione predefinita, la maggior parte delle istanze è impostata per la migrazione live durante gli eventi host. Per tutte le serie di macchine, ad eccezione di Z3, puoi sostituire questo comportamento e impostare esplicitamente la terminazione e, facoltativamente, il riavvio delle istanze. Alcuni tipi di macchine non supportano la migrazione live, ad esempio le istanze H4D, le istanze bare metal, le istanze con GPU collegate o le istanze Z3 con più di 18 TiB di Titanium SSD collegato. Queste istanze vengono terminate durante gli eventi host. Per saperne di più, consulta Comportamenti di manutenzione e riavvio.
Tipi di eventi host
Esistono due tipi di eventi host, descritti in dettaglio nelle sezioni seguenti:
Se l'istanza smette di rispondere, può anche attivare un riavvio o una terminazione dell'istanza.
Eventi di manutenzione
Un evento di manutenzione si verifica quando Compute Engine deve eseguire un'attività di manutenzione o riparazione che richiede lo spostamento delle VM dal server host. Se abiliti la policy di manutenzione dell'host migrazione live per un tipo di istanza supportato, Compute Engine sposta l'istanza su un nuovo host e l'applicazione subisce interruzioni minime.
Compute Engine applica anche alcuni upgrade leggeri dell'hypervisor e della rete in background in modo non invasivo, mantenendo l'istanza sullo stesso host.
Il comportamento dell'istanza durante un evento di manutenzione può variare a seconda della tenancy dell'istanza e del tipo di macchina.
Per le VM single-tenant, la frequenza approssimativa degli eventi di manutenzione dell'host pianificati è ogni 4-6 settimane. Il supporto della migrazione live dipende dalla policy di manutenzione dell'host per la VM single-tenant.
Puoi trovare informazioni sul comportamento di manutenzione per ogni tipo di macchina nella pagina della famiglia di macchine corrispondente, come segue:
- Serie C:
- C2 e C2D: famiglia di macchine ottimizzate per il calcolo
- Tutte le altre serie C: famiglia di macchine per uso generico
- Serie E, N e T: famiglia di macchine per uso generico
- Serie H: famiglia di macchine ottimizzate per il calcolo
- Serie M e X: famiglia di macchine ottimizzate per la memoria
- Serie Z: famiglia di macchine ottimizzate per l'archiviazione
Per le famiglie di macchine ottimizzate per l'acceleratore, consulta le pagine seguenti:
- GPU: Gestisci gli eventi di manutenzione degli host GPU.
- TPU: Preparati per gli eventi di manutenzione nella documentazione di Cloud TPU.
Errori dell'host
Un errore dell'host (compute.instances.hostError) indica che si è verificato un problema hardware
o software sulla macchina fisica o sull'infrastruttura del data center che ospita
l'istanza di computing e ne ha causato l'arresto anomalo. Un errore dell'host che coinvolge un guasto
hardware totale o altri problemi relativi all'hardware potrebbe impedire la
migrazione live dell'istanza.
Se l'istanza è impostata per il riavvio automatico, che è
l'impostazione predefinita, Compute Engine la riavvia, in genere entro tre minuti dal rilevamento
dell'errore. A seconda del problema, il riavvio potrebbe richiedere fino a 5,5 minuti.
A volte, un'istanza di computing potrebbe non rispondere prima che venga segnalato un errore dell'host. Puoi ridurre il tempo di attesa di Compute Engine per riavviare o terminare l'istanza impostando il timeout per la correzione degli errori dell'host. Per saperne di più, consulta Imposta le policy di disponibilità.
A volte possono verificarsi guasti hardware e software fisici, ma si tratta di casi rari. Per proteggere le tue applicazioni e i tuoi servizi da questi eventi di sistema che potrebbero causare interruzioni, consulta le seguenti risorse:
- Progettazione di sistemi solidi
- Pattern per app scalabili e resilienti
- Creazione di gruppi di istanze gestite
Panoramica della policy di manutenzione dell'host
La policy di manutenzione dell'host di un'istanza determina il suo comportamento durante i seguenti eventi host:
- Evento di manutenzione
- Evento di errore dell'host o istanza che non risponde
Puoi configurare le istanze in modo che continuino a essere eseguite durante la manutenzione dell'host, mentre Compute Engine esegue la migrazione live a un altro host, oppure puoi scegliere di arrestare l'istanza.
- Comportamento di manutenzione: se viene eseguita la migrazione live o l'arresto dell'istanza quando si verifica un evento di manutenzione.
- Comportamento di riavvio: se Compute Engine riavvia o termina l'istanza in caso di arresto anomalo, errore dell'host o mancata risposta.
- Tempo di rilevamento degli errori dell'host: il tempo massimo di attesa di Compute Engine per riavviare o terminare un'istanza dopo aver rilevato che non risponde.
Puoi aggiornare la policy di manutenzione dell'host di un'istanza in qualsiasi momento per controllare il comportamento delle istanze.
Comportamenti di manutenzione e riavvio
Quando si verifica un evento host, l'istanza di computing può utilizzare la migrazione live oppure può essere terminata. Se un'istanza viene terminata, puoi scegliere di riavviarla autonomamente o di farla riavviare automaticamente da Compute Engine.
Le seguenti serie di macchine potrebbero non supportare la migrazione live e richiedere invece la terminazione durante gli eventi host:
- Le istanze bare metal vengono terminate e riavviate, il che significa che potrebbero essere riavviate su un host diverso. Per ulteriori dettagli, consulta la documentazione "Esperienza di manutenzione" per la serie di macchine. Ad esempio, per i tipi di macchine bare metal C3, consulta Esperienza di manutenzione per le istanze C3.
- Istanze Confidential VM ad eccezione dei tipi di macchine N2D con piattaforme CPU AMD EPYC Milan che eseguono AMD SEV.
- Istanze con GPU
- Istanze con TPU
Migrazione live
Per impostazione predefinita, la maggior parte dei tipi di istanze è impostata per la migrazione live, ad eccezione dei tipi di istanze menzionati nella sezione precedente.
Durante la migrazione live, Compute Engine esegue automaticamente la migrazione dell'istanza da un evento di manutenzione dell'infrastruttura e l'istanza rimane in esecuzione durante la migrazione. L'istanza potrebbe registrare un breve periodo di prestazioni ridotte, ma in generale la maggior parte delle istanze non dovrebbe avere prestazioni notevolmente diverse. Questa soluzione è ideale per le istanze che richiedono un uptime costante e possono tollerare un breve periodo di prestazioni ridotte.
Quando Compute Engine esegue la migrazione dell'istanza, segnala un evento di sistema pubblicato nell'elenco delle operazioni di zona e nei log degli eventi di sistema. Puoi esaminare questo evento visualizzando le operazioni di Compute Engine per una zona specifica. Gli eventi di migrazione live hanno il seguente tipo di operazione:
compute.instances.migrateOnHostMaintenance
Chiudi e riavvia
Se non vuoi che venga eseguita la migrazione live dell'istanza o se il tipo di istanza
non la supporta, puoi scegliere di consentire
Cloud de Confiance by S3NS l'arresto dell'istanza quando si verifica un evento host. Con questa configurazione, se si verifica un evento host, Compute Engine invia un segnale di spegnimento software per arrestare l'istanza.
Attende quindi 60 secondi che l'istanza si arresti correttamente e imposta lo stato dell'istanza su TERMINATED. Se l'istanza non si arresta correttamente entro 60 secondi, viene terminata forzatamente.
Questa opzione è ideale se le istanze richiedono prestazioni costanti e massime e se l'applicazione complessiva è progettata per gestire gli errori o i riavvii delle istanze.
Quando Compute Engine arresta un'istanza a causa di un evento host, segnala un evento di sistema pubblicato nell'elenco delle operazioni di zona e nei log degli eventi di sistema. Puoi esaminare questo evento visualizzando le operazioni di Compute Engine per una zona specifica. Gli eventi di terminazione dell'istanza hanno il seguente tipo di operazione:
compute.instances.terminateOnHostMaintenance
Riavvio automatico
Se l'istanza è configurata per l'arresto in caso di evento di manutenzione o se si arresta in modo anomalo a causa di un problema hardware sottostante, Compute Engine può riavviarla automaticamente. L'istanza viene riavviata sullo stesso server host o spostata su un altro server nella stessa zona che non partecipa all'evento di manutenzione.
Per impostazione predefinita, Compute Engine tenta di recuperare le istanze con dischi SSD locali collegati per un'ora. Se viene raggiunto il limite di tempo, Compute Engine tenta di riavviare l'istanza su un server host diverso nella stessa zona.
Per configurare il riavvio automatico, imposta il campo automaticRestart della policy di manutenzione dell'host su true. Questa impostazione non si applica se l'istanza viene messa offline a causa di un'interruzione a livello di zona o tramite un'operazione manuale, ad esempio chiamando sudo shutdown all'interno del sistema operativo guest.
Quando Compute Engine riavvia automaticamente l'istanza, segnala un evento di sistema pubblicato nell'elenco delle operazioni di zona. Puoi esaminare questo evento visualizzando le operazioni di Compute Engine per una zona specifica. Gli eventi di riavvio automatico hanno il seguente tipo di operazione:
compute.instances.automaticRestart
Persistenza dei dischi dopo la terminazione dell'istanza
Poiché Hyperdisk sono Network Attached Storage, quando l'istanza viene riavviata, Compute Engine ricollega il disco di avvio e tutti i dischi secondari all'istanza. I dati su questi dischi persistono durante la migrazione live e i riavvii dell'istanza.
Pianificazione della manutenzione
Cloud de Confiance by S3NS fornisce funzionalità che consentono un controllo più rigoroso della manutenzione.
Utilizzando determinate famiglie di macchine,
puoi specificare le preferenze di manutenzione e ricevere notifiche degli eventi di manutenzione imminenti
tramite Cloud Logging, il server di metadati dell'istanza,
il comando gcloud CLI compute instances describe o il
metodo REST instances.describe. Dopo aver ricevuto una
notifica,
hai un periodo di tempo durante il quale puoi avviare la manutenzione pianificata
in un momento a tua scelta. Se non attivi la manutenzione pianificata, l'evento di manutenzione si verifica alla fine del periodo di tempo della notifica, ovvero all'ora pianificata indicata nella notifica.
Puoi utilizzare queste funzionalità in combinazione con la policy di manutenzione dell'host per personalizzare una pianificazione della manutenzione adatta al tuo carico di lavoro.
Passaggi successivi
- Scopri di più sulla migrazione live.
- Scopri di più su come impostare la policy di manutenzione dell'host dell'istanza.
- Scopri di più su come ricevere notifiche relative alla migrazione live.
- Scopri di più sulla simulazione della manutenzione dell'host.
- Scopri di più sulla migrazione live manuale delle VM single-tenant.