Ce document présente les modèles de GPU NVIDIA que vous pouvez utiliser pour accélérer le machine learning (ML), le traitement des données et les charges de travail gourmandes en ressources graphiques sur vos instances Compute Engine. Ce document indique également les GPU préassociés aux séries de machines optimisées pour les accélérateurs, telles que A4X Max, A4X, A4, A3, A2, G4 et G2, ainsi que les GPU que vous pouvez associer aux instances à usage général N1.
Utilisez ce document pour comparer les performances, la mémoire et les fonctionnalités de différents modèles de GPU. Pour obtenir une présentation plus détaillée de la famille de machines optimisées pour les accélérateurs, y compris des informations sur les plates-formes de processeur, les options de stockage et les capacités de mise en réseau, et pour trouver le type de machine spécifique qui correspond à votre charge de travail, consultez Famille de machines optimisées pour les accélérateurs.
Pour en savoir plus sur les GPU sur Compute Engine, consultez À propos des GPU.
Pour consulter les régions et les zones disponibles pour les GPU sur Compute Engine, consultez la page Régions et zones disponibles pour les GPU.
Présentation
Compute Engine propose différents types de machines pour prendre en charge vos diverses charges de travail.
Certains types de machines sont compatibles avec les postes de travail virtuels (vWS) NVIDIA RTX. Lorsque vous créez une instance qui utilise NVIDIA RTX Virtual Workstation, Compute Engine ajoute automatiquement une licence vWS. Pour en savoir plus sur la tarification des postes de travail virtuels, consultez la page Tarifs des GPU.
| Types de machines avec GPU | |||
|---|---|---|---|
| Charges de travail d'IA et de ML | Graphiques et visualisation | Autres charges de travail GPU | |
|
Les types de machines de série A optimisées pour les accélérateurs sont conçus pour les charges de travail de calcul hautes performances (HPC), d'intelligence artificielle (IA) et de machine learning (ML).
Les modèles de la série A de dernière génération sont idéaux pour le pré-entraînement et l'affinage des modèles de fondation impliquant de grands clusters d'accélérateurs, tandis que la série A2 peut être utilisée pour l'entraînement de modèles plus petits et l'inférence à hôte unique. Pour ces types de machines, le modèle de GPU est automatiquement associé à l'instance. |
Les types de machines de série G optimisées pour les accélérateurs sont conçus pour les charges de travail de simulation NVIDIA Omniverse, les applications exigeantes en ressources graphiques, le transcodage vidéo et les bureaux virtuels. Ces types de machines sont compatibles avec les postes de travail virtuels (vWS) NVIDIA RTX.
La série G peut également être utilisée pour entraîner des modèles plus petits et pour l'inférence à hôte unique. Pour ces types de machines, le modèle de GPU est automatiquement associé à l'instance. |
Pour les types de machines à usage général N1, à l'exception des types N1 à cœur partagé ( |
|
|
Les modèles de GPU suivants peuvent être associés aux types de machines à usage général N1 :
|
||
Vous pouvez également utiliser certains types de machines GPU sur AI Hypercomputer. AI Hypercomputer est un système de supercalcul optimisé pour gérer vos charges de travail d'intelligence artificielle (IA) et de machine learning (ML). Cette option est recommandée pour créer une infrastructure à allocation dense et optimisée pour les performances, qui intègre les planificateurs Google Kubernetes Engine (GKE) et Slurm.
Série de machines A4X Max et A4X
Les séries de machines A4X Max et A4X s'exécutent sur une plate-forme exaflopique basée sur l'architecture rack de NVIDIA. Elles sont optimisées pour les charges de travail HPC, d'entraînement de ML lié au réseau et exigeantes en calcul et mémoire. Les machines A4X Max et A4X diffèrent principalement par leurs composants GPU et réseau. A4X Max propose également des instances Bare Metal, qui offrent un accès direct au processeur et à la mémoire du serveur hôte, sans la couche d'hyperviseur Compute Engine.
Types de machines A4X Max (Bare Metal)
Les types de machines A4X-Max optimisées pour les accélérateurs utilisent des superchips NVIDIA GB300 Grace Blackwell Ultra (nvidia-gb300) et sont idéaux pour l'entraînement et la mise en service de modèles de fondation. Les types de machines A4X Max sont disponibles en tant qu'instances Bare Metal.
A4X Max est une plate-forme exaflopique basée sur NVIDIA GB300 NVL72. Chaque machine dispose de deux sockets avec des processeurs NVIDIA Grace dotés de cœurs Arm Neoverse V2. Ces processeurs sont connectés à quatre GPU NVIDIA B300 Blackwell avec une communication puce à puce (NVLink-C2C) rapide.
| Superchips NVIDIA GB300 Grace Blackwell Ultra associés | |||||||
|---|---|---|---|---|---|---|---|
| Type de machine | Nombre de vCPU1 | Mémoire de l'instance (Go) | SSD local associé (Gio) | Nombre de cartes d'interface réseau physiques | Bande passante réseau maximale (Gbit/s)2 | Nombre de GPU | Mémoire de GPU3 (GB HBM3e) |
a4x-maxgpu-4g-metal |
144 | 960 | 12 000 | 6 | 3 600 | 4 | 1 116 |
1 Un vCPU est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
2 La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs.
Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
3 La mémoire de GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.
Types de machines A4X
Les types de machines A4X optimisées pour les accélérateurs utilisent des superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200) et sont idéaux pour l'entraînement et la mise en service de modèles de fondation.
A4X est une plate-forme exaflopique basée sur NVIDIA GB200 NVL72. Chaque machine dispose de deux sockets avec des processeurs NVIDIA Grace dotés de cœurs Arm Neoverse V2. Ces processeurs sont connectés à quatre GPU NVIDIA B200 Blackwell avec une communication puce à puce (NVLink-C2C) rapide.
| Superchips NVIDIA GB200 Grace Blackwell associés | |||||||
|---|---|---|---|---|---|---|---|
| Type de machine | Nombre de vCPU1 | Mémoire de l'instance (Go) | SSD local associé (Gio) | Nombre de cartes d'interface réseau physiques | Bande passante réseau maximale (Gbit/s)2 | Nombre de GPU | Mémoire de GPU3 (GB HBM3e) |
a4x-highgpu-4g |
140 | 884 | 12 000 | 6 | 2 000 | 4 | 744 |
1 Un vCPU est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
2 La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs.
Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
3 La mémoire de GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.
Série de machines A4
Les types de machines A4 optimisées pour les accélérateurs sont associés à des GPU NVIDIA B200 Blackwell (nvidia-b200). Ils sont idéaux pour l'entraînement et la mise en service de modèles de fondation.
| GPU NVIDIA B200 Blackwell associés | |||||||
|---|---|---|---|---|---|---|---|
| Type de machine | Nombre de vCPU1 | Mémoire de l'instance (Go) | SSD local associé (Gio) | Nombre de cartes d'interface réseau physiques | Bande passante réseau maximale (Gbit/s)2 | Nombre de GPU | Mémoire de GPU3 (GB HBM3e) |
a4-highgpu-8g |
224 | 3 968 | 12 000 | 10 | 3 600 | 8 | 1 440 |
1 Un vCPU est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
2 La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs.
Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
3 La mémoire de GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.
Série de machines A3
Les types de machines A3 optimisées pour les accélérateurs sont associés à des GPU NVIDIA H100 SXM ou NVIDIA H200 SXM.
Type de machine A3 Ultra
Les types de machines A3 Ultra sont associés à des GPU NVIDIA H200 SXM (nvidia-h200-141gb) et offrent les meilleures performances réseau de la série A3. Les types de machines A3 Ultra sont idéaux pour l'entraînement et la mise en service de modèles de fondation.
| GPU NVIDIA H200 associés | |||||||
|---|---|---|---|---|---|---|---|
| Type de machine | Nombre de vCPU1 | Mémoire de l'instance (Go) | SSD local associé (Gio) | Nombre de cartes d'interface réseau physiques | Bande passante réseau maximale (Gbit/s)2 | Nombre de GPU | Mémoire de GPU3 (GB HBM3e) |
a3-ultragpu-8g |
224 | 2 952 | 12 000 | 10 | 3 600 | 8 | 1128 |
1 Un vCPU est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
2 La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs.
Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
3 La mémoire de GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.
Types de machines A3 Mega, High et Edge
Pour utiliser les GPU NVIDIA H100 SXM, vous avez les options suivantes :
- A3 Mega : ces types de machines sont associés à des GPU H100 SXM (
nvidia-h100-mega-80gb) et sont idéaux pour les charges de travail d'entraînement et de diffusion à grande échelle. - A3 High : ces types de machines sont associés à des GPU H100 SXM (
nvidia-h100-80gb) et conviennent aussi bien aux tâches d'entraînement qu'à celles de mise en service. - A3 Edge : ces types de machines sont associés à des GPU H100 SXM (
nvidia-h100-80gb), sont conçus spécifiquement pour le serving et sont disponibles dans un ensemble limité de régions.
A3 Mega
| GPU NVIDIA H100 associés | |||||||
|---|---|---|---|---|---|---|---|
| Type de machine | Nombre de vCPU1 | Mémoire de l'instance (Go) | SSD local associé (Gio) | Nombre de cartes d'interface réseau physiques | Bande passante réseau maximale (Gbit/s)2 | Nombre de GPU | Mémoire GPU3 (GB HBM3) |
a3-megagpu-8g |
208 | 1 872 | 6 000 | 9 | 1 800 | 8 | 640 |
A3 High
| GPU NVIDIA H100 associés | |||||||
|---|---|---|---|---|---|---|---|
| Type de machine | Nombre de vCPU1 | Mémoire de l'instance (Go) | SSD local associé (Gio) | Nombre de cartes d'interface réseau physiques | Bande passante réseau maximale (Gbit/s)2 | Nombre de GPU | Mémoire GPU3 (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1 500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3 000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1 872 | 6 000 | 5 | 1 000 | 8 | 640 |
A3 Edge
| GPU NVIDIA H100 associés | |||||||
|---|---|---|---|---|---|---|---|
| Type de machine | Nombre de vCPU1 | Mémoire de l'instance (Go) | SSD local associé (Gio) | Nombre de cartes d'interface réseau physiques | Bande passante réseau maximale (Gbit/s)2 | Nombre de GPU | Mémoire GPU3 (GB HBM3) |
a3-edgegpu-8g |
208 | 1 872 | 6 000 | 5 |
|
8 | 640 |
1 Un vCPU est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
2 La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs.
Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
3 La mémoire de GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.
Série de machines A2
Les types de machines A2 optimisées pour les accélérateurs sont associés à des GPU NVIDIA A100 et sont idéaux pour l'affinage de modèles, l'inférence de grands modèles et l'inférence optimisée pour les coûts.
La série de machines A2 propose deux types :
- A2 Ultra : ces types de machines sont associés à des GPU A100 de 80 Go (
nvidia-a100-80gb) et à des disques SSD locaux. - A2 Standard : ces types de machines sont associés à des GPU A100 de 40 Go (
nvidia-tesla-a100). Vous pouvez également ajouter des disques SSD locaux lorsque vous créez une instance A2 Standard. Pour connaître le nombre de disques que vous pouvez associer, consultez Types de machines nécessitant le choix d'un nombre de disques SSD locaux.
A2 Ultra
| GPU NVIDIA A100 80 Go associés | ||||||
|---|---|---|---|---|---|---|
| Type de machine | Nombre de vCPU1 | Mémoire de l'instance (Go) | SSD local associé (Gio) | Bande passante réseau maximale (Gbit/s)2 | Nombre de GPU | Mémoire GPU3 (GB HBM2e) |
a2-ultragpu-1g |
12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g |
24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g |
48 | 680 | 1 500 | 50 | 4 | 320 |
a2-ultragpu-8g |
96 | 1 360 | 3 000 | 100 | 8 | 640 |
A2 Standard
| GPU NVIDIA A100 40 Go associés | ||||||
|---|---|---|---|---|---|---|
| Type de machine | Nombre de vCPU1 | Mémoire de l'instance (Go) | SSD local pris en charge | Bande passante réseau maximale (Gbit/s)2 | Nombre de GPU | Mémoire GPU3 (GB HBM2) |
a2-highgpu-1g |
12 | 85 | Oui | 24 | 1 | 40 |
a2-highgpu-2g |
24 | 170 | Oui | 32 | 2 | 80 |
a2-highgpu-4g |
48 | 340 | Oui | 50 | 4 | 160 |
a2-highgpu-8g |
96 | 680 | Oui | 100 | 8 | 320 |
a2-megagpu-16g |
96 | 1 360 | Oui | 100 | 16 | 640 |
1 Un vCPU est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
2 La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs.
Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
3 La mémoire de GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.
Série de machines G4
Les types de machines G4 optimisées pour les accélérateurs utilisent des GPU NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000) et conviennent aux charges de travail de simulation NVIDIA Omniverse, aux applications exigeantes en ressources graphiques, au transcodage vidéo et aux bureaux virtuels. Les types de machines G4 offrent également une solution à faible coût pour l'inférence et le réglage de modèle sur un seul hôte, par rapport aux types de machines de la série A.
Une fonctionnalité clé de la gamme G4 est la prise en charge de la communication GPU peer-to-peer (P2P) directe sur les types de machines multi-GPU (g4-standard-96, g4-standard-192, g4-standard-384). Cela permet aux GPU d'une même instance d'échanger des données directement sur le bus PCIe, sans impliquer l'hôte du processeur. Pour en savoir plus sur la communication peer-to-peer des GPU G4, consultez Communication peer-to-peer des GPU G4.
| GPU NVIDIA RTX PRO 6000 associés | |||||||
|---|---|---|---|---|---|---|---|
| Type de machine | Nombre de vCPU1 | Mémoire de l'instance (Go) | Volumes Titanium SSD maximaux pris en charge (Gio)2 | Nombre de cartes d'interface réseau physiques | Bande passante réseau maximale (Gbit/s)3 | Nombre de GPU | Mémoire de GPU4 (Go GDDR7) |
g4-standard-48 |
48 | 180 | 1 500 | 1 | 50 | 1 | 96 |
g4-standard-96 |
96 | 360 | 3 000 | 1 | 100 | 2 | 192 |
g4-standard-192 |
192 | 720 | 6 000 | 1 | 200 | 4 | 384 |
g4-standard-384 |
384 | 1 440 | 12 000 | 2 | 400 | 8 | 768 |
1 Un vCPU est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
2 Vous pouvez ajouter des disques Titanium SSD lorsque vous créez une instance G4. Pour connaître le nombre de disques que vous pouvez associer, consultez Types de machines nécessitant le choix d'un nombre de disques SSD locaux.
3 La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs.
Consultez Bande passante réseau.
4 La mémoire de GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.
Série de machines G2
Les types de machines G2 optimisées pour les accélérateurs sont associés à des GPU NVIDIA L4 et sont idéaux pour les charges de travail d'inférence optimisées pour les coûts, les charges de travail de calcul hautes performances et celles nécessitant beaucoup de ressources graphiques.
Chaque type de machine G2 dispose également d'une mémoire par défaut et d'une plage de mémoire personnalisée. La plage de mémoire personnalisée définit la quantité de mémoire que vous pouvez allouer à votre instance pour chaque type de machine. Vous pouvez également ajouter des disques SSD locaux lorsque vous créez une instance G2. Pour connaître le nombre de disques que vous pouvez associer, consultez Types de machines nécessitant le choix d'un nombre de disques SSD locaux.
| GPU NVIDIA L4 associés | |||||||
|---|---|---|---|---|---|---|---|
| Type de machine | Nombre de vCPU1 | Mémoire d'instance par défaut (Go) | Plage de mémoire d'instance personnalisée (Go) | Disque SSD local maximal pris en charge (Gio) | Bande passante réseau maximale (Gbit/s)2 | Nombre de GPU | Mémoire de GPU3 (Go GDDR6) |
g2-standard-4 |
4 | 16 | 16 à 32 | 375 | 10 | 1 | 24 |
g2-standard-8 |
8 | 32 | 32 à 54 | 375 | 16 | 1 | 24 |
g2-standard-12 |
12 | 48 | 48 à 54 | 375 | 16 | 1 | 24 |
g2-standard-16 |
16 | 64 | 54 à 64 | 375 | 32 | 1 | 24 |
g2-standard-24 |
24 | 96 | 96 à 108 | 750 | 32 | 2 | 48 |
g2-standard-32 |
32 | 128 | 96 à 128 | 375 | 32 | 1 | 24 |
g2-standard-48 |
48 | 192 | 192 à 216 | 1 500 | 50 | 4 | 96 |
g2-standard-96 |
96 | 384 | 384 à 432 | 3 000 | 100 | 8 | 192 |
1 Un vCPU est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
2 La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs.
Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
3 La mémoire de GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.
Série de machines N1
Vous pouvez associer les modèles de GPU suivants à un type de machine N1, à l'exception des types de machines N1 à cœur partagé.
Contrairement aux types de machines de la série optimisée pour les accélérateurs, les types de machines N1 ne sont pas fournis avec un nombre défini de GPU associés. Au lieu de cela, vous spécifiez le nombre de GPU à associer lorsque vous créez l'instance.
Les instances N1 avec moins de GPU limitent le nombre maximal de processeurs virtuels. En règle générale, un nombre plus élevé de GPU permet de créer des instances dotées d'une plus grande quantité de processeurs virtuels et de mémoire.
GPU N1+T4
Vous pouvez associer des GPU NVIDIA T4 à des instances à usage général N1 avec les configurations d'instance suivantes.
| Type d'accélérateur | Nombre de GPU | Mémoire de GPU1 (Go GDDR6) | Nombre de vCPU | Mémoire de l'instance (Go) | SSD local pris en charge |
|---|---|---|---|---|---|
nvidia-tesla-t4 ou nvidia-tesla-t4-vws
|
1 | 16 | Entre 1 et 48 | Entre 1 et 312 | Oui |
| 2 | 32 | Entre 1 et 48 | Entre 1 et 312 | Oui | |
| 4 | 64 | Entre 1 et 96 | Entre 1 et 624 | Oui |
1 La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.
GPU N1+P4
Vous pouvez associer des GPU NVIDIA P4 à des instances à usage général N1 avec les configurations d'instance suivantes.
| Type d'accélérateur | Nombre de GPU | Mémoire de GPU1 (Go GDDR5) | Nombre de vCPU | Mémoire de l'instance (Go) | SSD local compatible2 |
|---|---|---|---|---|---|
nvidia-tesla-p4 ou nvidia-tesla-p4-vws
|
1 | 8 | Entre 1 et 24 | Entre 1 et 156 | Oui |
| 2 | 16 | Entre 1 et 48 | Entre 1 et 312 | Oui | |
| 4 | 32 | Entre 1 et 96 | Entre 1 et 624 | Oui |
1 La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail gourmandes en ressources graphiques.
2 Pour les instances avec des GPU NVIDIA P4 associés, les disques SSD locaux ne sont compatibles qu'avec les zones us-central1-c et northamerica-northeast1-b.
GPU N1+V100
Vous pouvez associer des GPU NVIDIA V100 à des instances à usage général N1 avec les configurations d'instance suivantes.
| Type d'accélérateur | Nombre de GPU | Mémoire GPU1 (GB HBM2) | Nombre de vCPU | Mémoire de l'instance (Go) | SSD local compatible2 |
|---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | Entre 1 et 12 | Entre 1 et 78 | Oui |
| 2 | 32 | Entre 1 et 24 | Entre 1 et 156 | Oui | |
| 4 | 64 | Entre 1 et 48 | Entre 1 et 312 | Oui | |
| 8 | 128 | Entre 1 et 96 | Entre 1 et 624 | Oui |
1 La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.
2 Les disques SSD locaux ne sont pas compatibles avec us-east1-c pour les instances avec des GPU NVIDIA V100 associés.
GPU N1+P100
Vous pouvez associer des GPU NVIDIA P100 à des instances à usage général N1 avec les configurations d'instance suivantes.
Pour certains GPU NVIDIA P100, la quantité maximale de processeurs et de mémoire disponible pour certaines configurations dépend de la zone dans laquelle la ressource GPU s'exécute.
| Type d'accélérateur | Nombre de GPU | Mémoire GPU1 (GB HBM2) | Zone | Nombre de vCPU | Mémoire de l'instance (Go) | SSD local pris en charge |
|---|---|---|---|---|---|---|
nvidia-tesla-p100 ou nvidia-tesla-p100-vws
|
1 | 16 | Toutes les zones P100 | Entre 1 et 16 | Entre 1 et 104 | Oui |
| 2 | 32 | Toutes les zones P100 | 1 à 32 | Entre 1 et 208 | Oui | |
| 4 | 64 | us-east1-c, europe-west1-d, europe-west1-b |
Entre 1 et 64 | Entre 1 et 208 | Oui | |
| Toutes les autres zones P100 | Entre 1 et 96 | Entre 1 et 624 | Oui |
1 La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.
Graphique de comparaison général
Le tableau suivant décrit la taille de la mémoire du GPU, la disponibilité des fonctionnalités, ainsi que les types de charges de travail idéaux des différents modèles de GPU sur Compute Engine.
| Type de machine (modèle de GPU) | Mémoire de GPU | Interconnexion | Compatibilité avec les postes de travail virtuels (vWS) NVIDIA RTX | Utilisation optimale |
|---|---|---|---|---|
| A4X Max (GB300) | 279 Go HBM3e à 8 Tbit/s | NVLink Full Mesh à 1 800 Gbit/s | Entraînement et inférence distribués à grande échelle de LLM MoE, de systèmes de recommandation et de HPC | |
| A4X (GB200) | 186 Go HBM3e à 8 Tbit/s | NVLink Full Mesh à 1 800 Gbit/s | Entraînement et inférence distribués à grande échelle de LLM, de systèmes de recommandation et de HPC | |
| A4 (B200) | 180 Go HBM3e à 8 Tbit/s | NVLink Full Mesh à 1 800 Gbit/s | Entraînement et inférence distribués à grande échelle de LLM, de systèmes de recommandation et de HPC | |
| A3 Ultra (H200) | 141 Go HBM3e à 4,8 Tbit/s | NVLink Full Mesh à 900 Gbit/s | Modèles volumineux avec tables de données massives pour entraînement ou inférence ML, HPC, BERT et DLRM. | |
| A3 Mega, A3 High, A3 Edge (H100) | 80 Go HBM3 à 3,35 Tbit/s | NVLink Full Mesh à 900 Gbit/s | Modèles volumineux avec tables de données massives pour entraînement ou inférence ML, HPC, BERT et DLRM. | |
| A2 Ultra (A100 80 Go) | 80 Go HBM2e à 1,9 Tbit/s | NVLink Full Mesh à 600 Gbit/s | Modèles volumineux avec tables de données massives pour entraînement ou inférence ML, HPC, BERT et DLRM. | |
| A2 Standard (A100 40 Go) | 40 Go HBM2 à 1,6 Tbit/s | NVLink Full Mesh à 600 Gbit/s | Entraînement et inférence ML, HPC | |
| G4 (RTX PRO 6000) | 96 Go GDDR7 avec ECC à 1 597 Go/s | N/A | Inférence et entraînement ML, postes de travail à distance pour la visualisation, transcodage de vidéos, HPC | |
| G2 (L4) | 24 Go GDDR6 à 300 Gbit/s | N/A | Inférence et entraînement ML, postes de travail à distance pour la visualisation, transcodage de vidéos, HPC | |
| N1 (T4) | 16 Go GDDR6 à 320 Gbit/s | N/A | Inférence et entraînement ML, postes de travail à distance pour la visualisation, transcodage de vidéos | |
| N1 (P4) | 8 Go GDDR5 à 192 Gbit/s | N/A | Postes de travail à distance pour la visualisation, inférence ML et transcodage de vidéos | |
| N1 (V100) | 16 Go HBM2 à 900 Gbit/s | NVLink Ring à 300 Gbit/s | Entraînement et inférence ML, HPC | |
| N1 (P100) | 16 Go HBM2 à 732 Gbit/s | N/A | Inférence et entraînement ML, HPC, postes de travail à distance pour la visualisation |
Pour comparer les tarifs des GPU selon les différents modèles de GPU et les différentes régions disponibles sur Compute Engine, consultez la section Tarifs des GPU.
Performances des Tensor Cores et des cœurs CUDA standards
Les sections suivantes fournissent des métriques de performances pour chaque architecture de GPU, séparées en performances des cœurs CUDA vectoriels ou standards et des Tensor Cores.
Tensor Cores : les performances Tensor font référence au débit obtenu par les Tensor Cores spécialisés. Il s'agit d'unités matérielles dédiées (souvent appelées unités matricielles) conçues spécifiquement pour accélérer les opérations de multiplication et d'accumulation de matrices volumineuses qui constituent l'épine dorsale du deep learning, de l'entraînement et de l'inférence.
Ce type de performances est idéal pour le deep learning, les grands modèles de langage (LLM) et toute charge de travail pouvant être exprimée sous forme d'opérations matricielles denses. Les Tensor Cores offrent un débit nettement supérieur à celui des CUDA Cores pour le même type de données.
Cœurs CUDA vectoriels ou standards : les performances vectorielles font référence au débit que les cœurs CUDA standards atteignent. Il s'agit d'unités à usage général qui fonctionnent à l'aide d'un modèle d'instruction unique et de plusieurs threads (SIMT, Single Instruction, Multiple Threads). Elles effectuent généralement des opérations sur des éléments de données ou des vecteurs individuels.
Ce type de performances est idéal pour le calcul général, le rendu graphique et les charges de travail qui n'impliquent pas de calcul matriciel dense.
Architecture Blackwell
Les types de machines A4X Max, A4X, A4 et G4 s'exécutent sur l'architecture Blackwell de NVIDIA.
Tensor Core
L'architecture Blackwell de NVIDIA, utilisée par ces types de machines, introduit la prise en charge des Tensor Cores pour la précision FP4 et des capacités INT4 étendues pour des performances révolutionnaires dans l'inférence de grands modèles.
| Type de machine (modèle de GPU) | FP64 (TFLOPS) | TF32 (TFLOPS) | FP16/32 mixte (TFLOPS) | INT8 (TOPS) | INT4 (TOPS) | FP8 (TFLOPS) | FP4 (TFLOPS) |
|---|---|---|---|---|---|---|---|
| A4X Max (GB300) | 1.3 | 2,500 | 5 000 | 330 | 155 | 10 000 | 15 000 |
| A4X (GB200) | 40 | 2,500 | 5 000 | 10 000 | 20 000 | 10 000 | 10 000 |
| A4 (B200) | 40 | 1 100 | 4 500 | 9 000 | - | 9 000 | - |
| G4 (RTX PRO 6000) | 1,8 | 140 | 935,6 | 1 871,2 | - | - | 2 200 |
- Pour l'entraînement de précision mixte, NVIDIA GB300, GB200, B200 et RTX PRO 6000 acceptent également le type de données
bfloat16. - Les GPU NVIDIA GB300, GB200, B200 et RTX PRO 6000 sont compatibles avec la parcimonie structurée, qui peut doubler le débit de calcul. Les valeurs de performances de cette section supposent une multiplication matricielle dense. Si vous utilisez la parcimonie structurelle, les performances sont doublées.
Cœurs CUDA standards
Les types de machines qui utilisent l'architecture Blackwell fournissent des opérations FP64 et FP32 hautes performances pour les charges de travail exigeantes de HPC et d'IA.
Pour les A4X Max, A4X et A4, les opérations FP16 sont accélérées par les Tensor Cores. Pour la génération 4, les performances FP16 sur les cœurs CUDA standards sont incluses, car les charges de travail graphiques, telles que le rendu et la visualisation, peuvent bénéficier de la réduction de l'utilisation de la mémoire et des exigences de bande passante de la précision FP16, même lorsqu'elles n'utilisent pas les Tensor Cores.
| Type de machine (modèle de GPU) | FP64 (TFLOPS) | FP32 (TFLOPS) | FP16 (TFLOPS) |
|---|---|---|---|
| A4X Max (GB300) | 1.3 | 80 | - |
| A4X (GB200) | 40 | 80 | - |
| A4 (B200) | 40 | 80 | - |
| G4 (RTX PRO 6000) | 2 | 117 | 117 |
Architectures Hopper, Ada Lovelace et Ampere
La série A3 utilise l'architecture Hopper, qui a introduit des moteurs spécialisés pour les modèles Transformer. La série A2 utilise l'architecture Ampere, qui offre une base équilibrée pour l'entraînement et l'inférence hautes performances. La série G2 utilise l'architecture Ada Lovelace, qui offre une accélération polyvalente et écoénergétique pour les charges de travail d'inférence de l'IA, de transcodage vidéo et graphiques.
Tensor Core
Les architectures Hopper, Ada Lovelace et Ampere sont dotées de Tensor Cores avancés qui accélèrent les types de données TF32, FP16, FP8 et INT8, ce qui permet d'obtenir un débit élevé pour l'entraînement et l'inférence de précision mixte.
| Type de machine (modèle de GPU) | FP64 (TFLOPS) | TF32 (TFLOPS) | FP16/32 mixte (TFLOPS) | INT8 (TOPS) | INT4 (TOPS) | FP8 (TFLOPS) |
|---|---|---|---|---|---|---|
| A3 Ultra (H200) | 67 | 989 | 1 979 | 3 958 | - | 3 958 |
| A3 Mega/High/Edge (H100) | 67 | 989 | 1 979 | 3 958 | - | 3 958 |
| A2 Ultra (A100 80 Go) | 19,5 | 156 | 312 | 624 | 1248 | - |
| A2 Standard (A100 40 Go) | 19,5 | 156 | 312 | 624 | 1248 | - |
| G2 (L4) | - | 120 | 242 | 485 | - | 485 |
- Pour l'entraînement de précision mixte, NVIDIA H200, H100, A100 et L4 acceptent également le type de données
bfloat16. - Les GPU NVIDIA H200, H100, A100 et L4 sont compatibles avec la parcimonie structurelle, qui peut doubler le débit de calcul. Les valeurs de performances de cette section supposent une multiplication matricielle dense. Si vous utilisez la parcimonie structurelle, les performances sont doublées.
Cœurs CUDA standards
Les types de machines qui utilisent les architectures Hopper, Ada Lovelace et Ampere fournissent des opérations FP64 et FP32 hautes performances pour les charges de travail exigeantes de HPC et d'IA.
| Type de machine (modèle de GPU) | FP64 (TFLOPS) | FP32 (TFLOPS) |
|---|---|---|
| A3 Ultra (H200) | 34 | 67 |
| A3 Mega, High et Edge (H100) | 34 | 67 |
| A2 Ultra (A100 80 Go) | 9,7 | 19,5 |
| A2 Standard (A100 40 Go) | 9,7 | 19,5 |
| G2 (L4) | 0,5 | 30.3 |
Architectures Volta, Pascal et Turing
Les types de machines N1 utilisent les architectures de GPU suivantes :
Tensor Core
Les architectures Turing et Volta de NVIDIA, disponibles sur les instances N1, offrent une compatibilité avec les Tensor Cores pour les opérations de précision mixte, INT8 et INT4, ce qui permet une accélération fondamentale pour l'inférence de deep learning.
Ces GPU ont introduit les premières générations de cœurs Tensor, principalement utilisés pour l'entraînement FP16 et la quantification INT8 et INT4 dans l'inférence. Ce tableau n'inclut pas les types de machines N1 (P4) et N1 (P100), car ils ne disposent pas de Tensor Cores.
| Type de machine (modèle de GPU) | FP16/32 mixte (TFLOPS) | INT8 (TOPS) | INT4 (TOPS) |
|---|---|---|---|
| N1 (V100) | 125 | - | - |
| N1 (T4) | 65 | 130 | 260 |
Cœurs CUDA standards
Les types de machines qui utilisent les architectures Volta, Pascal et Turing sont équipés de cœurs CUDA FP64 et FP32 pour accélérer un large éventail de charges de travail HPC et d'IA. Pour les GPU P100 et P4, les performances FP16 et INT8 sont également incluses pour prendre en charge les charges de travail de deep learning.
| Type de machine (modèle de GPU) | FP64 (TFLOPS) | FP32 (TFLOPS) | Métriques supplémentaires |
|---|---|---|---|
| N1 (V100) | 7,8 | 15.7 | - |
| N1 (P100) | 4.7 | 9.3 | FP16 : 18,7 TFLOPS |
| N1 (T4) | 0,25 | 8.1 | - |
| N1 (P4) | 0,2 | 5,5 | INT8 : 22 TOPS |
Étape suivante
- En savoir plus sur les GPU Compute Engine
- Vérifiez la disponibilité des régions et des zones GPU.
- Consultez Bandes passantes réseau et GPU.
- Consultez les tarifs des GPU.