Informazioni sulle istanze GPU

Questo documento descrive le funzionalità e le limitazioni delle istanze di macchine virtuali (VM) con GPU che vengono eseguite su Compute Engine.

Per accelerare workload specifici su Compute Engine, puoi eseguire il deployment di un'istanza ottimizzata per l'acceleratore con GPU collegate oppure collegare GPU a un'istanza N1 per uso generico. Compute Engine fornisce GPU per le tue istanze in modalità passthrough. La modalità passthrough fornisce alle istanze il controllo diretto sulle GPU e sulla relativa memoria.

Puoi anche utilizzare alcuni tipi di macchine GPU su AI Hypercomputer. AI Hypercomputer è un sistema di supercomputing ottimizzato per supportare i workload di intelligenza artificiale (AI) e machine learning (ML). Questa opzione è consigliata per creare un'infrastruttura densamente allocata e ottimizzata per le prestazioni che dispone di integrazioni per gli scheduler Google Kubernetes Engine (GKE) e Slurm.

Tipi di macchine supportati

Le famiglie di macchine ottimizzate per l'acceleratore e N1 per uso generico supportano le GPU. Per le istanze che utilizzano tipi di macchine ottimizzate per l'acceleratore, Compute Engine collega automaticamente le GPU quando crei l'istanza. Per le istanze che utilizzano tipi di macchine N1, colleghi le GPU a un'istanza durante o dopo la creazione. Le GPU non sono compatibili con altri tipi di macchina.

Tipi di macchine ottimizzate per l'acceleratore

A ogni tipo di macchina ottimizzata per l'acceleratore è collegato un modello specifico di GPU NVIDIA. Se hai workload ad alta intensità grafica, come la visualizzazione 3D, puoi anche creare workstation virtuali che utilizzano le workstation virtuali (vWS) NVIDIA RTX. La workstation virtuale NVIDIA RTX è disponibile per alcuni modelli di GPU.

Tipo di macchina Modello di GPU Modello di workstation virtuale (vWS) NVIDIA RTX
A4X Superchip NVIDIA GB200 Grace Blackwell (nvidia-gb200).

Ogni superchip contiene quattro GPU NVIDIA B200 Blackwell.

A4 GPU NVIDIA B200 Blackwell (nvidia-b200)
A3 Ultra GPU NVIDIA H200 SXM (nvidia-h200-141gb)
A3 Mega GPU NVIDIA H100 SXM (nvidia-h100-mega-80gb)
A3 High, A3 Edge GPU NVIDIA H100 SXM (nvidia-h100-80gb)
A2 Ultra GPU NVIDIA A100 da 80 GB (nvidia-a100-80gb)
A2 Standard GPU NVIDIA A100 da 40 GB (nvidia-a100-40gb)
G4 (anteprima) NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000)
G2 GPU NVIDIA L4 (nvidia-l4) GPU per workstation virtuali NVIDIA L4 (nvidia-l4-vws)

Per saperne di più, consulta la pagina Famiglia di macchine ottimizzate per l'acceleratore.

Tipi di macchine N1 per uso generico

Per la maggior parte dei tipi di macchine N1, ad eccezione di N1 con core condivisi (f1-micro e g1-small), puoi collegare i seguenti modelli di GPU:

GPU NVIDIA:

  • NVIDIA T4: nvidia-tesla-t4
  • NVIDIA P4: nvidia-tesla-p4
  • NVIDIA P100: nvidia-tesla-p100
  • NVIDIA V100: nvidia-tesla-v100

Workstation virtuale (vWS) NVIDIA RTX (precedentemente nota come NVIDIA GRID):

  • NVIDIA T4 Virtual Workstation: nvidia-tesla-t4-vws
  • NVIDIA P4 Virtual Workstation: nvidia-tesla-p4-vws
  • NVIDIA P100 Virtual Workstation: nvidia-tesla-p100-vws

    Per queste workstation virtuali, all'istanza viene aggiunta automaticamente una licenza per workstation virtuale (vWS) NVIDIA RTX.

Per la famiglia per uso generico N1, puoi utilizzare tipi di macchine predefiniti o personalizzati.

GPU sulle VM spot

Puoi aggiungere GPU alle VM spot a prezzi di Spot inferiori. Le GPU collegate alle VM spot funzionano come normali GPU, ma rimangono attive solo per la durata della VM. Le VM spot con GPU seguono lo stesso processo di prerilascio di tutte le VM spot.

Valuta la possibilità di richiedere una quota Preemptible GPU dedicata da utilizzare per le GPU sulle VM spot. Per ulteriori informazioni, consulta Quote per le VM spot.

Durante gli eventi di manutenzione, le VM spot con GPU vengono prerilasciate per impostazione predefinita e non possono essere riavviate automaticamente. Se vuoi ricreare le VM dopo che sono state prerilasciate, utilizza un gruppo di istanze gestite. I gruppi di istanze gestite ricreano le istanze VM se vCPU, memoria e risorse GPU sono disponibili.

Se vuoi ricevere un avviso prima che le VM vengano prerilasciate o se vuoi configurarle in modo che si riavviino automaticamente dopo un evento di manutenzione, utilizza VM standard con una GPU. Per le VM standard con GPU, Compute Engine fornisce un preavviso di un'ora prima del prerilascio.

Compute Engine non ti addebita alcun utilizzo della GPU se le VM vengono prerilasciate nel primo minuto dall'inizio della loro esecuzione.

Per scoprire come creare VM spot con GPU collegate, leggi Crea una VM con GPU collegate e Crea VM spot. Ad esempio, consulta Crea un'istanza A3 Ultra o A4 utilizzando le VM spot.

GPU su istanze con tempi di esecuzione predefiniti

Le istanze che utilizzano il modello di provisioning standard in genere non possono utilizzare le quote di allocazione prerilasciabili. Le quote prerilasciabili sono per carichi di lavoro temporanei e sono generalmente più disponibili. Se il tuo progetto non dispone di una quota prerilasciabile e non l'hai mai richiesta, tutte le istanze del tuo progetto utilizzano le quote di allocazione standard.

Se richiedi una quota di allocazione preemptive, le istanze che utilizzano il modello di provisioning standard devono soddisfare tutti i seguenti criteri per utilizzare la quota di allocazione preemptive:

Quando utilizzi l'allocazione prerilasciabile per i carichi di lavoro GPU con limiti di tempo, puoi beneficiare sia del tempo di esecuzione ininterrotto sia dell'elevata ottenibilità della quota di allocazione prerilasciabile. Per ulteriori informazioni, consulta Quote prerilasciabili.

GPU e Confidential VM

Puoi utilizzare una GPU con un'istanza Confidential VM che utilizza Intel TDX sulla serie di macchine A3. Per maggiori informazioni, consulta le configurazioni supportate di Confidential VM. Per scoprire come creare un'istanza Confidential VM con GPU, consulta Crea un'istanza Confidential VM con GPU.

GPU e spazio di archiviazione a blocchi

Quando crei un'istanza utilizzando un tipo di macchina GPU, puoi aggiungere uno spazio di archiviazione a blocchi permanente o temporaneo all'istanza. Per archiviare dati non temporanei, utilizza l'archiviazione a blocchi permanente come Hyperdisk o Persistent Disk perché questi dischi sono indipendenti dal ciclo di vita dell'istanza. I dati sullo spazio di archiviazione permanente possono essere conservati anche dopo l'eliminazione dell'istanza.

Per l'archiviazione temporanea o le cache, utilizza l'archiviazione a blocchi temporanea aggiungendo dischi SSD locali quando crei l'istanza.

Archiviazione a blocchi permanente con volumi Persistent Disk e Hyperdisk

Puoi collegare Persistent Disk e selezionare i volumi Hyperdisk alle istanze abilitate per la GPU.

Per i workload di machine learning (ML) e di serving, utilizza i volumi Hyperdisk ML, che offrono un throughput elevato e tempi di caricamento dei dati più brevi. Hyperdisk ML è un'opzione più conveniente per i carichi di lavoro ML perché offre tempi di inattività della GPU inferiori.

I volumi Hyperdisk ML forniscono il supporto multi-attach di sola lettura, quindi puoi collegare lo stesso disco a più istanze, consentendo a ogni istanza di accedere agli stessi dati.

Per ulteriori informazioni sui tipi di dischi supportati per le serie di macchine che supportano le GPU, consulta le pagine delle serie di macchine N1 e ottimizzate per l'acceleratore.

Dischi SSD locali

I dischi SSD locali forniscono spazio di archiviazione temporaneo veloce per la memorizzazione nella cache, l'elaborazione dei dati o altri dati temporanei. I dischi SSD locali forniscono spazio di archiviazione veloce perché sono collegati fisicamente al server che ospita l'istanza. I dischi SSD locali forniscono spazio di archiviazione temporaneo perché l'istanza perde i dati se viene riavviata.

Evita di archiviare dati con requisiti di persistenza elevati sui dischi SSD locali. Per archiviare dati non temporanei, utilizza l'archiviazione permanente.

Se arresti manualmente un'istanza con una GPU, puoi conservare i dati dell'SSD locale, con alcune limitazioni. Per ulteriori dettagli, consulta la documentazione relativa agli SSD locali.

Per il supporto regionale di SSD locali con tipi di GPU, consulta Disponibilità di SSD locali per regioni e zone GPU.

GPU e manutenzione dell'host

Compute Engine arresta sempre le istanze con GPU collegate quando esegue eventi di manutenzione sul server host. Se all'istanza sono collegati dischi SSD locali, l'istanza perde i dati dell'SSD locale dopo l'arresto.

Per informazioni sulla gestione degli eventi di manutenzione, consulta Gestione degli eventi di manutenzione dell'host GPU.

Prezzi delle GPU

Per le istanze con GPU collegate, i costi vengono addebitati come segue:

Per i prezzi orari e mensili delle GPU, consulta la pagina dei prezzi delle GPU.

Prenotare GPU con sconti per impegno di utilizzo

Per prenotare risorse GPU in una zona specifica, consulta la sezione Scegliere un tipo di prenotazione.

Per ricevere sconti per impegno di utilizzo per le GPU in una zona specifica, devi acquistare impegni basati sulle risorse per le GPU e allegare anche prenotazioni che specificano le GPU corrispondenti ai tuoi impegni. Per ulteriori informazioni, consulta Collega le prenotazioni agli impegni basati sulle risorse.

Limitazioni e restrizioni della GPU

Per le istanze con GPU collegate, si applicano le seguenti limitazioni:

  • Solo i tipi di macchine ottimizzati per l'acceleratore (A4X, A4, A3, A2 e G2) e N1 per uso generico supportano le GPU.

  • Per proteggere gli utenti e i sistemi Compute Engine, i nuovi progetti hanno una quota di GPU globale che limita il numero totale di GPU che puoi creare in qualsiasi zona supportata. Quando richiedi una quota GPU, devi richiederne una per i modelli di GPU che vuoi creare in ciascuna regione e una globale aggiuntiva per il numero totale di GPU di tutti i tipi in tutte le zone.

  • Le istanze con una o più GPU hanno un numero massimo di vCPU per ogni GPU che aggiungi all'istanza. Per gli intervalli di vCPU e memoria disponibili per le diverse configurazioni GPU, consulta l'elenco delle GPU.

  • Per funzionare correttamente, le GPU richiedono i driver del dispositivo. Le GPU NVIDIA in esecuzione su Compute Engine devono utilizzare una versione minima del driver. Per ulteriori informazioni sulle versioni dei driver, vedi Versioni dei driver NVIDIA richieste.

  • Lo SLA di Compute Engine copre le istanze con un modello di GPU collegato solo se questo modello di GPU collegato è disponibile pubblicamente.

    Per le regioni con più zone, lo SLA di Compute Engine copre l'istanza solo se il modello di GPU è disponibile in più zone all'interno di quella regione. Per i modelli di GPU per regione, consulta Regioni e zone GPU.

  • Compute Engine supporta un utente simultaneo per GPU.

  • Consulta anche le limitazioni per ogni tipo di macchina con GPU collegate.

Passaggi successivi