Alcune o tutte le informazioni in questa pagina potrebbero non essere applicabili a Cloud de Confiance di S3NS. Per maggiori dettagli, consulta Differenze rispetto a Google Cloud.

Questa pagina è stata tradotta dall'API Cloud Translation.

Informazioni sulle istanze GPU

Questo documento descrive le funzionalità e le limitazioni delle istanze di macchine virtuali (VM) con GPU che vengono eseguite su Compute Engine.

Per accelerare workload specifici su Compute Engine, puoi eseguire il deployment di un'istanza ottimizzata per l'acceleratore con GPU collegate oppure collegare GPU a un'istanza N1 per uso generico. Compute Engine fornisce GPU per le tue istanze in modalità passthrough. La modalità passthrough fornisce alle istanze il controllo diretto sulle GPU e sulla relativa memoria.

Puoi anche utilizzare alcuni tipi di macchine GPU su AI Hypercomputer. AI Hypercomputer è un sistema di supercomputing ottimizzato per supportare i workload di intelligenza artificiale (AI) e machine learning (ML). Questa opzione è consigliata per creare un'infrastruttura densamente allocata e ottimizzata per le prestazioni che dispone di integrazioni per Google Kubernetes Engine (GKE) e gli scheduler Slurm.

Tipi di macchine supportati

Compute Engine offre diversi tipi di macchine per supportare i vari carichi di lavoro.

Alcuni tipi di macchine supportano le workstation virtuali (vWS) NVIDIA RTX. Quando crei un'istanza che utilizza la workstation virtuale NVIDIA RTX, Compute Engine aggiunge automaticamente una licenza vWS. Per informazioni sui prezzi delle workstation virtuali, consulta la pagina dei prezzi delle GPU.

Tipi di macchine GPU
Workload AI e ML	Grafica e visualizzazione	Altri carichi di lavoro GPU
I tipi di macchina della serie A ottimizzati per l'acceleratore sono progettati per workload di computing ad alte prestazioni (HPC), intelligenza artificiale (AI) e machine learning (ML). La serie A di generazione successiva è ideale per il preaddestramento e l'ottimizzazione dei foundation model che coinvolgono grandi cluster di acceleratori, mentre la serie A2 può essere utilizzata per l'addestramento di modelli più piccoli e l'inferenza su un singolo host. Per questi tipi di macchine, il modello di GPU viene collegato automaticamente all'istanza.	I tipi di macchina della serie G ottimizzati per l'acceleratore sono progettati per carichi di lavoro come quelli di simulazione NVIDIA Omniverse, applicazioni ad alta intensità grafica, transcodifica video e desktop virtuali. Questi tipi di macchine supportano le workstation virtuali (vWS) NVIDIA RTX. La serie G può essere utilizzata anche per l'addestramento di modelli più piccoli e per l'inferenza su un singolo host. Per questi tipi di macchine, il modello di GPU viene collegato automaticamente all'istanza.	Per i tipi di macchine per uso generico N1, ad eccezione di N1 con core condivisi (`f1-micro` e `g1-small`), puoi collegare un insieme selezionato di modelli di GPU. Alcuni di questi modelli di GPU supportano anche le workstation virtuali (vWS) NVIDIA RTX.
A4X (NVIDIA GB200 Superchips) (`nvidia-gb200`) A4 (NVIDIA B200) (`nvidia-b200`) A3 Ultra (NVIDIA H200) (`nvidia-h200-141gb`) A3 Mega (NVIDIA H100) (`nvidia-h100-mega-80gb`) A3 High (NVIDIA H100) (`nvidia-h100-80gb`) A3 Edge (NVIDIA H100) (`nvidia-h100-80gb`) A2 Ultra (NVIDIA A100 80GB) (`nvidia-a100-80gb`) A2 Standard (NVIDIA A100) (`nvidia-a100-40gb`)	G4 (NVIDIA RTX PRO 6000) (`nvidia-rtx-pro-6000`) (`nvidia-rtx-pro-6000-vws`) G2 (NVIDIA L4) (`nvidia-l4`) (`nvidia-l4-vws`)	I seguenti modelli di GPU possono essere collegati ai tipi di macchine per uso generico N1: NVIDIA T4 (`nvidia-tesla-t4`) (`nvidia-tesla-t4-vws`) NVIDIA P4 (`nvidia-tesla-p4`) (`nvidia-tesla-p4-vws`) NVIDIA V100 (`nvidia-tesla-v100`) NVIDIA P100 (`nvidia-tesla-p100`) (`nvidia-tesla-p100-vws`)

Tipi di macchine GPU

Workload AI e ML Grafica e visualizzazione Altri carichi di lavoro GPU

I tipi di macchina della serie A ottimizzati per l'acceleratore sono progettati per workload di computing ad alte prestazioni (HPC), intelligenza artificiale (AI) e machine learning (ML).

La serie A di generazione successiva è ideale per il preaddestramento e l'ottimizzazione dei foundation model che coinvolgono grandi cluster di acceleratori, mentre la serie A2 può essere utilizzata per l'addestramento di modelli più piccoli e l'inferenza su un singolo host.

Per questi tipi di macchine, il modello di GPU viene collegato automaticamente all'istanza.

I tipi di macchina della serie G ottimizzati per l'acceleratore sono progettati per carichi di lavoro come quelli di simulazione NVIDIA Omniverse, applicazioni ad alta intensità grafica, transcodifica video e desktop virtuali. Questi tipi di macchine supportano le workstation virtuali (vWS) NVIDIA RTX.

La serie G può essere utilizzata anche per l'addestramento di modelli più piccoli e per l'inferenza su un singolo host.

Per questi tipi di macchine, il modello di GPU viene collegato automaticamente all'istanza.

Per i tipi di macchine per uso generico N1, ad eccezione di N1 con core condivisi (f1-micro e g1-small), puoi collegare un insieme selezionato di modelli di GPU. Alcuni di questi modelli di GPU supportano anche le workstation virtuali (vWS) NVIDIA RTX.

A4X (NVIDIA GB200 Superchips)
(nvidia-gb200)
A4 (NVIDIA B200)
(nvidia-b200)
A3 Ultra (NVIDIA H200)
(nvidia-h200-141gb)
A3 Mega (NVIDIA H100)
(nvidia-h100-mega-80gb)
A3 High (NVIDIA H100)
(nvidia-h100-80gb)
A3 Edge (NVIDIA H100)
(nvidia-h100-80gb)
A2 Ultra (NVIDIA A100 80GB)
(nvidia-a100-80gb)
A2 Standard (NVIDIA A100)
(nvidia-a100-40gb)

G4 (NVIDIA RTX PRO 6000)
(nvidia-rtx-pro-6000)
(nvidia-rtx-pro-6000-vws)
G2 (NVIDIA L4)
(nvidia-l4)
(nvidia-l4-vws)

I seguenti modelli di GPU possono essere collegati ai tipi di macchine per uso generico N1:

NVIDIA T4
(nvidia-tesla-t4)
(nvidia-tesla-t4-vws)
NVIDIA P4
(nvidia-tesla-p4)
(nvidia-tesla-p4-vws)
NVIDIA V100
(nvidia-tesla-v100)
NVIDIA P100
(nvidia-tesla-p100)
(nvidia-tesla-p100-vws)

GPU sulle VM spot

Puoi aggiungere GPU alle VM spot a prezzi di Spot inferiori. Le GPU collegate alle VM spot funzionano come normali GPU, ma rimangono attive solo per la durata della VM. Le VM spot con GPU seguono lo stesso processo di prerilascio di tutte le VM spot.

Valuta la possibilità di richiedere una quota Preemptible GPU dedicata da utilizzare per le GPU sulle VM spot. Per ulteriori informazioni, consulta Quote per le VM spot.

Durante gli eventi di manutenzione, le VM spot con GPU vengono prerilasciate per impostazione predefinita e non possono essere riavviate automaticamente. Se vuoi ricreare le VM dopo che sono state prerilasciate, utilizza un gruppo di istanze gestite. I gruppi di istanze gestite ricreano le istanze VM se vCPU, memoria e risorse GPU sono disponibili.

Se vuoi ricevere un avviso prima che le VM vengano prerilasciate o se vuoi configurarle in modo che si riavviino automaticamente dopo un evento di manutenzione, utilizza VM standard con una GPU. Per le VM standard con GPU, Compute Engine fornisce un preavviso di un'ora prima del prerilascio.

Compute Engine non ti addebita alcun utilizzo della GPU se le VM vengono prerilasciate nel primo minuto dall'inizio della loro esecuzione.

Per scoprire come creare VM spot con GPU collegate, leggi Crea una VM con GPU collegate e Crea VM spot. Ad esempio, consulta Crea un'istanza A3 Ultra o A4 utilizzando le VM spot.

GPU su istanze con tempi di esecuzione predefiniti

Le istanze che utilizzano il modello di provisioning standard in genere non possono utilizzare le quote di allocazione prerilasciabili. Le quote prerilasciabili sono per carichi di lavoro temporanei e sono generalmente più disponibili. Se il tuo progetto non dispone di una quota prerilasciabile e non l'hai mai richiesta, tutte le istanze del progetto utilizzano le quote di allocazione standard.

Se richiedi una quota di allocazione preemptive, le istanze che utilizzano il modello di provisioning standard devono soddisfare tutti i seguenti criteri per utilizzare la quota di allocazione preemptive:

Le istanze hanno GPU collegate.
Le istanze sono configurate per essere eliminate automaticamente dopo un tempo di esecuzione predefinito tramite il campo maxRunDuration o terminationTime. Per saperne di più, consulta quanto segue:
- Limita il tempo di esecuzione di un'istanza
- Limita il tempo di esecuzione delle istanze in un MIG
L'istanza non è autorizzata a utilizzare le prenotazioni. Per saperne di più, vedi Previeni il consumo delle prenotazioni da parte delle istanze di computing.

Quando utilizzi l'allocazione prerilasciabile per i carichi di lavoro GPU con limiti di tempo, puoi beneficiare sia del tempo di esecuzione ininterrotto sia dell'elevata ottenibilità della quota di allocazione prerilasciabile. Per ulteriori informazioni, consulta Quote prerilasciabili.

GPU e Confidential VM

Puoi utilizzare una GPU con un'istanza Confidential VM che utilizza Intel TDX sulla serie di macchine A3. Per maggiori informazioni, consulta le configurazioni supportate di Confidential VM. Per scoprire come creare un'istanza Confidential VM con GPU, consulta Crea un'istanza Confidential VM con GPU.

GPU e spazio di archiviazione a blocchi

Quando crei un'istanza utilizzando un tipo di macchina GPU, puoi aggiungere uno spazio di archiviazione a blocchi permanente o temporaneo all'istanza. Per archiviare dati non temporanei, utilizza l'archiviazione a blocchi permanente come Hyperdisk o Persistent Disk perché questi dischi sono indipendenti dal ciclo di vita dell'istanza. I dati sullo spazio di archiviazione permanente possono essere conservati anche dopo l'eliminazione dell'istanza.

Per l'archiviazione temporanea o le cache, utilizza l'archiviazione a blocchi temporanea aggiungendo dischi SSD locali quando crei l'istanza.

Archiviazione a blocchi permanente con volumi Persistent Disk e Hyperdisk

Puoi collegare Persistent Disk e selezionare volumi Hyperdisk a istanze abilitate per la GPU.

Per i workload di machine learning (ML) e di serving, utilizza i volumi Hyperdisk ML, che offrono un throughput elevato e tempi di caricamento dei dati più brevi. Hyperdisk ML è un'opzione più conveniente per i carichi di lavoro di ML perché offre tempi di inattività della GPU inferiori.

I volumi Hyperdisk ML forniscono il supporto multi-attach di sola lettura, quindi puoi collegare lo stesso disco a più istanze, dando a ogni istanza l'accesso agli stessi dati.

Per ulteriori informazioni sui tipi di dischi supportati per le serie di macchine che supportano le GPU, consulta le pagine delle serie di macchine N1 e ottimizzate per l'acceleratore.

Dischi SSD locali

I dischi SSD locali forniscono spazio di archiviazione temporaneo e veloce per la memorizzazione nella cache, l'elaborazione dei dati o altri dati temporanei. I dischi SSD locali forniscono spazio di archiviazione veloce perché sono collegati fisicamente al server che ospita l'istanza. I dischi SSD locali forniscono spazio di archiviazione temporaneo perché l'istanza perde i dati se viene riavviata.

Evita di archiviare dati con requisiti di persistenza elevati sui dischi SSD locali. Per archiviare dati non temporanei, utilizza l'archiviazione permanente.

Se arresti manualmente un'istanza con una GPU, puoi conservare i dati dell'SSD locale, con alcune limitazioni. Per ulteriori dettagli, consulta la documentazione relativa agli SSD locali.

Per il supporto regionale dell'SSD locale con i tipi di GPU, consulta Disponibilità dell'SSD locale.

GPU e manutenzione dell'host

Compute Engine arresta sempre le istanze con GPU collegate quando esegue eventi di manutenzione sul server host. Se all'istanza sono collegati dischi SSD locali, l'istanza perde i dati dell'SSD locale dopo l'arresto.

Per informazioni sulla gestione degli eventi di manutenzione, consulta Gestione degli eventi di manutenzione dell'host GPU.

Prenota la capacità delle GPU

Le prenotazioni offrono un'elevata garanzia di capacità per le risorse specifiche della zona, incluse le GPU. Puoi utilizzare le prenotazioni per assicurarti di avere GPU disponibili quando devi utilizzarle per applicazioni che richiedono molte risorse. Per i diversi metodi per prenotare risorse specifiche per zona in Compute Engine, vedi Scegliere un tipo di prenotazione.

Le prenotazioni sono necessarie anche quando vuoi ricevere sconti per impegno di utilizzo (CUD) per le GPU.

Prezzi delle GPU

Se richiedi a Compute Engine di eseguire il provisioning delle GPU utilizzando il modello di provisioning spot, flex-start o associato a una prenotazione, ottieni le GPU a prezzi scontati, a seconda del tipo di GPU. Puoi anche ricevere sconti per impegno di utilizzo o sconti per utilizzo sostenuto (solo con le VM N1) per l'utilizzo della GPU.

Per i prezzi orari e mensili delle GPU, consulta la pagina dei prezzi delle GPU.

Sconti per impegno di utilizzo per le GPU

Gli impegni basati sulle risorse offrono sconti elevati per le risorse Compute Engine in cambio dell'impegno a utilizzare le risorse in una regione specifica per almeno un anno. In genere, acquisti impegni per risorse come vCPU, memoria, GPU e dischi SSD locali da utilizzare con una serie di macchine specifica. Quando utilizzi le risorse, ricevi l'utilizzo delle risorse idonee a prezzi scontati. Per scoprire di più su questi sconti, consulta la pagina relativa agli sconti per impegno di utilizzo basato sulle risorse.

Per acquistare un impegno con GPU, devi anche prenotare le GPU e collegare le prenotazioni all'impegno. Per ulteriori informazioni sul collegamento delle prenotazioni agli impegni, consulta Collega le prenotazioni agli impegni basati sulle risorse.

Sconti per utilizzo sostenuto per le GPU

Le istanze che utilizzano tipi di macchine N1 con GPU collegate ricevono sconti per utilizzo sostenuto (SUD), simili a quelli delle vCPU. Quando selezioni una GPU per una workstation virtuale, Compute Engine aggiunge automaticamente una licenza per workstation virtuale NVIDIA RTX alla tua istanza.

Limitazioni e restrizioni della GPU

Per le istanze con GPU collegate, si applicano le seguenti limitazioni:

Solo i tipi di macchine ottimizzati per l'acceleratore (A4X, A4, A3, A2, G4 e G2) e N1 per uso generico supportano le GPU.
Per proteggere gli utenti e i sistemi Compute Engine, i nuovi progetti hanno una quota di GPU globale che limita il numero totale di GPU che puoi creare in qualsiasi zona supportata. Quando richiedi una quota GPU, devi richiederne una per i modelli di GPU che vuoi creare in ciascuna regione e una globale aggiuntiva per il numero totale di GPU di tutti i tipi in tutte le zone.
Le istanze con una o più GPU hanno un numero massimo di vCPU per ogni GPU che aggiungi all'istanza. Per gli intervalli di vCPU e memoria disponibili per le diverse configurazioni GPU, consulta l'elenco delle GPU.
Per funzionare correttamente, le GPU richiedono i driver del dispositivo. Le GPU NVIDIA in esecuzione su Compute Engine devono utilizzare una versione minima del driver. Per ulteriori informazioni sulle versioni dei driver, vedi Versioni dei driver NVIDIA richieste.
Lo SLA di Compute Engine copre le istanze con un modello di GPU collegato solo se questo modello di GPU collegato è disponibile a livello generale.

Per le regioni con più zone, lo SLA di Compute Engine copre l'istanza solo se il modello di GPU è disponibile in più di una zona all'interno di quella regione. Per i modelli di GPU per regione, consulta la sezione Disponibilità degli acceleratori.
Compute Engine supporta un utente simultaneo per GPU.
Consulta anche le limitazioni per ogni tipo di macchina con GPU collegate.

Passaggi successivi

Scopri come creare istanze con GPU collegate.
Scopri come aggiungere o rimuovere GPU.
Scopri come creare un'istanza Confidential VM con una GPU collegata.