Types de machines avec GPU

Ce document présente les modèles de GPU NVIDIA que vous pouvez utiliser pour accélérer le machine learning (ML), le traitement des données et les charges de travail gourmandes en ressources graphiques sur vos instances Compute Engine. Ce document indique également les GPU préassociés aux séries de machines optimisées pour les accélérateurs, telles que A4X Max, A4X, A4, A3, A2, G4 et G2, ainsi que les GPU que vous pouvez associer aux instances à usage général N1.

Utilisez ce document pour comparer les performances, la mémoire et les fonctionnalités de différents modèles de GPU. Pour obtenir une présentation plus détaillée de la famille de machines optimisées pour les accélérateurs, y compris des informations sur les plates-formes de processeur, les options de stockage et les capacités de mise en réseau, et pour trouver le type de machine spécifique qui correspond à votre charge de travail, consultez Famille de machines optimisées pour les accélérateurs.

Pour en savoir plus sur les GPU sur Compute Engine, consultez À propos des GPU.

Pour consulter les régions et les zones disponibles pour les GPU sur Compute Engine, consultez la page Régions et zones disponibles pour les GPU.

Présentation

Compute Engine propose différents types de machines pour prendre en charge vos diverses charges de travail.

Certains types de machines sont compatibles avec les postes de travail virtuels (vWS) NVIDIA RTX. Lorsque vous créez une instance qui utilise NVIDIA RTX Virtual Workstation, Compute Engine ajoute automatiquement une licence vWS. Pour en savoir plus sur la tarification des postes de travail virtuels, consultez la page Tarifs des GPU.

Types de machines avec GPU
Charges de travail d'IA et de ML Graphiques et visualisation Autres charges de travail GPU
Les types de machines de série A optimisées pour les accélérateurs sont conçus pour les charges de travail de calcul hautes performances (HPC), d'intelligence artificielle (IA) et de machine learning (ML).

Les modèles de la série A de dernière génération sont idéaux pour le pré-entraînement et l'affinage des modèles de fondation impliquant de grands clusters d'accélérateurs, tandis que la série A2 peut être utilisée pour l'entraînement de modèles plus petits et l'inférence à hôte unique.

Pour ces types de machines, le modèle de GPU est automatiquement associé à l'instance.

Les types de machines de série G optimisées pour les accélérateurs sont conçus pour les charges de travail de simulation NVIDIA Omniverse, les applications exigeantes en ressources graphiques, le transcodage vidéo et les bureaux virtuels. Ces types de machines sont compatibles avec les postes de travail virtuels (vWS) NVIDIA RTX.

La série G peut également être utilisée pour entraîner des modèles plus petits et pour l'inférence à hôte unique.

Pour ces types de machines, le modèle de GPU est automatiquement associé à l'instance.

Pour les types de machines à usage général N1, à l'exception des types N1 à cœur partagé (f1-micro et g1-small), vous pouvez associer une sélection de modèles de GPU. Certains de ces modèles de GPU sont également compatibles avec les postes de travail virtuels (vWS) NVIDIA RTX.

  • A4X Max (superchips NVIDIA GB300 Ultra)
    (nvidia-gb300)
  • A4X (superchips NVIDIA GB200)
    (nvidia-gb200)
  • A4 (NVIDIA B200)
    (nvidia-b200)
  • A3 Ultra (NVIDIA H200)
    (nvidia-h200-141gb)
  • A3 Mega (NVIDIA H100)
    (nvidia-h100-mega-80gb)
  • A3 High (NVIDIA H100)
    (nvidia-h100-80gb)
  • A3 Edge (NVIDIA H100)
    (nvidia-h100-80gb)
  • A2 Ultra (NVIDIA A100 80 Go)
    (nvidia-a100-80gb)
  • A2 Standard (NVIDIA A100)
    (nvidia-a100-40gb)
  • G4 (NVIDIA RTX PRO 6000)
    (nvidia-rtx-pro-6000)
    (nvidia-rtx-pro-6000-vws)
  • G2 (NVIDIA L4)
    (nvidia-l4)
    (nvidia-l4-vws)
Les modèles de GPU suivants peuvent être associés aux types de machines à usage général N1 :
  • NVIDIA T4
    (nvidia-tesla-t4)
    (nvidia-tesla-t4-vws)
  • NVIDIA P4
    (nvidia-tesla-p4)
    (nvidia-tesla-p4-vws)
  • NVIDIA V100
    (nvidia-tesla-v100)
  • NVIDIA P100
    (nvidia-tesla-p100)
    (nvidia-tesla-p100-vws)

Vous pouvez également utiliser certains types de machines GPU sur AI Hypercomputer. AI Hypercomputer est un système de supercalcul optimisé pour gérer vos charges de travail d'intelligence artificielle (IA) et de machine learning (ML). Cette option est recommandée pour créer une infrastructure à allocation dense et optimisée pour les performances, qui intègre les planificateurs Google Kubernetes Engine (GKE) et Slurm.

Série de machines A4X Max et A4X

Les séries de machines A4X Max et A4X s'exécutent sur une plate-forme exaflopique basée sur l'architecture rack de NVIDIA. Elles sont optimisées pour les charges de travail HPC, d'entraînement de ML lié au réseau et exigeantes en calcul et mémoire. Les machines A4X Max et A4X diffèrent principalement par leurs composants GPU et réseau. A4X Max propose également des instances Bare Metal, qui offrent un accès direct au processeur et à la mémoire du serveur hôte, sans la couche d'hyperviseur Compute Engine.

Types de machines A4X Max (Bare Metal)

Les types de machines A4X-Max optimisées pour les accélérateurs utilisent des superchips NVIDIA GB300 Grace Blackwell Ultra (nvidia-gb300) et sont idéaux pour l'entraînement et la mise en service de modèles de fondation. Les types de machines A4X Max sont disponibles en tant qu'instances Bare Metal.

A4X Max est une plate-forme exaflopique basée sur NVIDIA GB300 NVL72. Chaque machine dispose de deux sockets avec des processeurs NVIDIA Grace dotés de cœurs Arm Neoverse V2. Ces processeurs sont connectés à quatre GPU NVIDIA B300 Blackwell avec une communication puce à puce (NVLink-C2C) rapide.

Superchips NVIDIA GB300 Grace Blackwell Ultra associés
Type de machine Nombre de vCPU1 Mémoire de l'instance (Go) SSD local associé (Gio) Nombre de cartes d'interface réseau physiques Bande passante réseau maximale (Gbit/s)2 Nombre de GPU Mémoire de GPU3
(GB HBM3e)
a4x-maxgpu-4g-metal 144 960 12 000 6 3 600 4 1 116

1 Un vCPU est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
2 La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs. Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
3 La mémoire de GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.

Types de machines A4X

Les types de machines A4X optimisées pour les accélérateurs utilisent des superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200) et sont idéaux pour l'entraînement et la mise en service de modèles de fondation.

A4X est une plate-forme exaflopique basée sur NVIDIA GB200 NVL72. Chaque machine dispose de deux sockets avec des processeurs NVIDIA Grace dotés de cœurs Arm Neoverse V2. Ces processeurs sont connectés à quatre GPU NVIDIA B200 Blackwell avec une communication puce à puce (NVLink-C2C) rapide.

Superchips NVIDIA GB200 Grace Blackwell associés
Type de machine Nombre de vCPU1 Mémoire de l'instance (Go) SSD local associé (Gio) Nombre de cartes d'interface réseau physiques Bande passante réseau maximale (Gbit/s)2 Nombre de GPU Mémoire de GPU3
(GB HBM3e)
a4x-highgpu-4g 140 884 12 000 6 2 000 4 744

1 Un vCPU est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
2 La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs. Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
3 La mémoire de GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.

Série de machines A4

Les types de machines A4 optimisées pour les accélérateurs sont associés à des GPU NVIDIA B200 Blackwell (nvidia-b200). Ils sont idéaux pour l'entraînement et la mise en service de modèles de fondation.

GPU NVIDIA B200 Blackwell associés
Type de machine Nombre de vCPU1 Mémoire de l'instance (Go) SSD local associé (Gio) Nombre de cartes d'interface réseau physiques Bande passante réseau maximale (Gbit/s)2 Nombre de GPU Mémoire de GPU3
(GB HBM3e)
a4-highgpu-8g 224 3 968 12 000 10 3 600 8 1 440

1 Un vCPU est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
2 La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs. Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
3 La mémoire de GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.

Série de machines A3

Les types de machines A3 optimisées pour les accélérateurs sont associés à des GPU NVIDIA H100 SXM ou NVIDIA H200 SXM.

Type de machine A3 Ultra

Les types de machines A3 Ultra sont associés à des GPU NVIDIA H200 SXM (nvidia-h200-141gb) et offrent les meilleures performances réseau de la série A3. Les types de machines A3 Ultra sont idéaux pour l'entraînement et la mise en service de modèles de fondation.

GPU NVIDIA H200 associés
Type de machine Nombre de vCPU1 Mémoire de l'instance (Go) SSD local associé (Gio) Nombre de cartes d'interface réseau physiques Bande passante réseau maximale (Gbit/s)2 Nombre de GPU Mémoire de GPU3
(GB HBM3e)
a3-ultragpu-8g 224 2 952 12 000 10 3 600 8 1128

1 Un vCPU est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
2 La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs. Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
3 La mémoire de GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.

Types de machines A3 Mega, High et Edge

Pour utiliser les GPU NVIDIA H100 SXM, vous avez les options suivantes :

  • A3 Mega : ces types de machines sont associés à des GPU H100 SXM (nvidia-h100-mega-80gb) et sont idéaux pour les charges de travail d'entraînement et de diffusion à grande échelle.
  • A3 High : ces types de machines sont associés à des GPU H100 SXM (nvidia-h100-80gb) et conviennent aussi bien aux tâches d'entraînement qu'à celles de mise en service.
  • A3 Edge : ces types de machines sont associés à des GPU H100 SXM (nvidia-h100-80gb), sont conçus spécifiquement pour le serving et sont disponibles dans un ensemble limité de régions.

A3 Mega

GPU NVIDIA H100 associés
Type de machine Nombre de vCPU1 Mémoire de l'instance (Go) SSD local associé (Gio) Nombre de cartes d'interface réseau physiques Bande passante réseau maximale (Gbit/s)2 Nombre de GPU Mémoire GPU3
(GB HBM3)
a3-megagpu-8g 208 1 872 6 000 9 1 800 8 640

A3 High

GPU NVIDIA H100 associés
Type de machine Nombre de vCPU1 Mémoire de l'instance (Go) SSD local associé (Gio) Nombre de cartes d'interface réseau physiques Bande passante réseau maximale (Gbit/s)2 Nombre de GPU Mémoire GPU3
(GB HBM3)
a3-highgpu-1g 26 234 750 1 25 1 80
a3-highgpu-2g 52 468 1 500 1 50 2 160
a3-highgpu-4g 104 936 3 000 1 100 4 320
a3-highgpu-8g 208 1 872 6 000 5 1 000 8 640

A3 Edge

GPU NVIDIA H100 associés
Type de machine Nombre de vCPU1 Mémoire de l'instance (Go) SSD local associé (Gio) Nombre de cartes d'interface réseau physiques Bande passante réseau maximale (Gbit/s)2 Nombre de GPU Mémoire GPU3
(GB HBM3)
a3-edgegpu-8g 208 1 872 6 000 5
  • 800 : pour asia-south1 et northamerica-northeast2
  • 400 : pour toutes les autres régions A3 Edge
8 640

1 Un vCPU est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
2 La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs. Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
3 La mémoire de GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.

Série de machines A2

Les types de machines A2 optimisées pour les accélérateurs sont associés à des GPU NVIDIA A100 et sont idéaux pour l'affinage de modèles, l'inférence de grands modèles et l'inférence optimisée pour les coûts.

La série de machines A2 propose deux types :

  • A2 Ultra : ces types de machines sont associés à des GPU A100 de 80 Go (nvidia-a100-80gb) et à des disques SSD locaux.
  • A2 Standard : ces types de machines sont associés à des GPU A100 de 40 Go (nvidia-tesla-a100). Vous pouvez également ajouter des disques SSD locaux lorsque vous créez une instance A2 Standard. Pour connaître le nombre de disques que vous pouvez associer, consultez Types de machines nécessitant le choix d'un nombre de disques SSD locaux.

A2 Ultra

GPU NVIDIA A100 80 Go associés
Type de machine Nombre de vCPU1 Mémoire de l'instance (Go) SSD local associé (Gio) Bande passante réseau maximale (Gbit/s)2 Nombre de GPU Mémoire GPU3
(GB HBM2e)
a2-ultragpu-1g 12 170 375 24 1 80
a2-ultragpu-2g 24 340 750 32 2 160
a2-ultragpu-4g 48 680 1 500 50 4 320
a2-ultragpu-8g 96 1 360 3 000 100 8 640

A2 Standard

GPU NVIDIA A100 40 Go associés
Type de machine Nombre de vCPU1 Mémoire de l'instance (Go) SSD local pris en charge Bande passante réseau maximale (Gbit/s)2 Nombre de GPU Mémoire GPU3
(GB HBM2)
a2-highgpu-1g 12 85 Oui 24 1 40
a2-highgpu-2g 24 170 Oui 32 2 80
a2-highgpu-4g 48 340 Oui 50 4 160
a2-highgpu-8g 96 680 Oui 100 8 320
a2-megagpu-16g 96 1 360 Oui 100 16 640

1 Un vCPU est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
2 La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs. Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
3 La mémoire de GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.

Série de machines G4

Les types de machines G4 optimisées pour les accélérateurs utilisent des GPU NVIDIA RTX PRO 6000 Blackwell Server  Edition (nvidia-rtx-pro-6000) et conviennent aux charges de travail de simulation NVIDIA Omniverse, aux applications exigeantes en ressources graphiques, au transcodage vidéo et aux bureaux virtuels. Les types de machines G4 offrent également une solution à faible coût pour l'inférence et le réglage de modèle sur un seul hôte, par rapport aux types de machines de la série A.

Une fonctionnalité clé de la gamme G4 est la prise en charge de la communication GPU peer-to-peer (P2P) directe sur les types de machines multi-GPU (g4-standard-96, g4-standard-192, g4-standard-384). Cela permet aux GPU d'une même instance d'échanger des données directement sur le bus PCIe, sans impliquer l'hôte du processeur. Pour en savoir plus sur la communication peer-to-peer des GPU G4, consultez Communication peer-to-peer des GPU G4.

GPU NVIDIA RTX PRO 6000 associés
Type de machine Nombre de vCPU1 Mémoire de l'instance (Go) Volumes Titanium SSD maximaux pris en charge (Gio)2 Nombre de cartes d'interface réseau physiques Bande passante réseau maximale (Gbit/s)3 Nombre de GPU Mémoire de GPU4
(Go GDDR7)
g4-standard-48 48 180 1 500 1 50 1 96
g4-standard-96 96 360 3 000 1 100 2 192
g4-standard-192 192 720 6 000 1 200 4 384
g4-standard-384 384 1 440 12 000 2 400 8 768

1 Un vCPU est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
2 Vous pouvez ajouter des disques Titanium SSD lorsque vous créez une instance G4. Pour connaître le nombre de disques que vous pouvez associer, consultez Types de machines nécessitant le choix d'un nombre de disques SSD locaux.
3 La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs. Consultez Bande passante réseau.
4 La mémoire de GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.

Série de machines G2

Les types de machines G2 optimisées pour les accélérateurs sont associés à des GPU NVIDIA L4 et sont idéaux pour les charges de travail d'inférence optimisées pour les coûts, les charges de travail de calcul hautes performances et celles nécessitant beaucoup de ressources graphiques.

Chaque type de machine G2 dispose également d'une mémoire par défaut et d'une plage de mémoire personnalisée. La plage de mémoire personnalisée définit la quantité de mémoire que vous pouvez allouer à votre instance pour chaque type de machine. Vous pouvez également ajouter des disques SSD locaux lorsque vous créez une instance G2. Pour connaître le nombre de disques que vous pouvez associer, consultez Types de machines nécessitant le choix d'un nombre de disques SSD locaux.

GPU NVIDIA L4 associés
Type de machine Nombre de vCPU1 Mémoire d'instance par défaut (Go) Plage de mémoire d'instance personnalisée (Go) Disque SSD local maximal pris en charge (Gio) Bande passante réseau maximale (Gbit/s)2 Nombre de GPU Mémoire de GPU3 (Go GDDR6)
g2-standard-4 4 16 16 à 32 375 10 1 24
g2-standard-8 8 32 32 à 54 375 16 1 24
g2-standard-12 12 48 48 à 54 375 16 1 24
g2-standard-16 16 64 54 à 64 375 32 1 24
g2-standard-24 24 96 96 à 108 750 32 2 48
g2-standard-32 32 128 96 à 128 375 32 1 24
g2-standard-48 48 192 192 à 216 1 500 50 4 96
g2-standard-96 96 384 384 à 432 3 000 100 8 192

1 Un vCPU est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
2 La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs. Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
3 La mémoire de GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.

Série de machines N1

Vous pouvez associer les modèles de GPU suivants à un type de machine N1, à l'exception des types de machines N1 à cœur partagé.

Contrairement aux types de machines de la série optimisée pour les accélérateurs, les types de machines N1 ne sont pas fournis avec un nombre défini de GPU associés. Au lieu de cela, vous spécifiez le nombre de GPU à associer lorsque vous créez l'instance.

Les instances N1 avec moins de GPU limitent le nombre maximal de processeurs virtuels. En règle générale, un nombre plus élevé de GPU permet de créer des instances dotées d'une plus grande quantité de processeurs virtuels et de mémoire.

GPU N1+T4

Vous pouvez associer des GPU NVIDIA T4 à des instances à usage général N1 avec les configurations d'instance suivantes.

Type d'accélérateur Nombre de GPU Mémoire de GPU1 (Go GDDR6) Nombre de vCPU Mémoire de l'instance (Go) SSD local pris en charge
nvidia-tesla-t4 ou
nvidia-tesla-t4-vws
1 16 Entre 1 et 48 Entre 1 et 312 Oui
2 32 Entre 1 et 48 Entre 1 et 312 Oui
4 64 Entre 1 et 96 Entre 1 et 624 Oui

1 La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.

GPU N1+P4

Vous pouvez associer des GPU NVIDIA P4 à des instances à usage général N1 avec les configurations d'instance suivantes.

Type d'accélérateur Nombre de GPU Mémoire de GPU1 (Go GDDR5) Nombre de vCPU Mémoire de l'instance (Go) SSD local compatible2
nvidia-tesla-p4 ou
nvidia-tesla-p4-vws
1 8 Entre 1 et 24 Entre 1 et 156 Oui
2 16 Entre 1 et 48 Entre 1 et 312 Oui
4 32 Entre 1 et 96 Entre 1 et 624 Oui

1 La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail gourmandes en ressources graphiques.
2 Pour les instances avec des GPU NVIDIA P4 associés, les disques SSD locaux ne sont compatibles qu'avec les zones us-central1-c et northamerica-northeast1-b.

GPU N1+V100

Vous pouvez associer des GPU NVIDIA V100 à des instances à usage général N1 avec les configurations d'instance suivantes.

Type d'accélérateur Nombre de GPU Mémoire GPU1 (GB HBM2) Nombre de vCPU Mémoire de l'instance (Go) SSD local compatible2
nvidia-tesla-v100 1 16 Entre 1 et 12 Entre 1 et 78 Oui
2 32 Entre 1 et 24 Entre 1 et 156 Oui
4 64 Entre 1 et 48 Entre 1 et 312 Oui
8 128 Entre 1 et 96 Entre 1 et 624 Oui

1 La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.
2 Les disques SSD locaux ne sont pas compatibles avec us-east1-c pour les instances avec des GPU NVIDIA V100 associés.

GPU N1+P100

Vous pouvez associer des GPU NVIDIA P100 à des instances à usage général N1 avec les configurations d'instance suivantes.

Pour certains GPU NVIDIA P100, la quantité maximale de processeurs et de mémoire disponible pour certaines configurations dépend de la zone dans laquelle la ressource GPU s'exécute.

Type d'accélérateur Nombre de GPU Mémoire GPU1 (GB HBM2) Zone Nombre de vCPU Mémoire de l'instance (Go) SSD local pris en charge
nvidia-tesla-p100 ou
nvidia-tesla-p100-vws
1 16 Toutes les zones P100 Entre 1 et 16 Entre 1 et 104 Oui
2 32 Toutes les zones P100 1 à 32 Entre 1 et 208 Oui
4 64 us-east1-c,
europe-west1-d,
europe-west1-b
Entre 1 et 64 Entre 1 et 208 Oui
Toutes les autres zones P100 Entre 1 et 96 Entre 1 et 624 Oui

1 La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisée pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail exigeantes en ressources graphiques.

Graphique de comparaison général

Le tableau suivant décrit la taille de la mémoire du GPU, la disponibilité des fonctionnalités, ainsi que les types de charges de travail idéaux des différents modèles de GPU sur Compute Engine.

Type de machine (modèle de GPU) Mémoire de GPU Interconnexion Compatibilité avec les postes de travail virtuels (vWS) NVIDIA RTX Utilisation optimale
A4X Max (GB300) 279 Go HBM3e à 8 Tbit/s NVLink Full Mesh à 1 800 Gbit/s Entraînement et inférence distribués à grande échelle de LLM MoE, de systèmes de recommandation et de HPC
A4X (GB200) 186 Go HBM3e à 8 Tbit/s NVLink Full Mesh à 1 800 Gbit/s Entraînement et inférence distribués à grande échelle de LLM, de systèmes de recommandation et de HPC
A4 (B200) 180 Go HBM3e à 8 Tbit/s NVLink Full Mesh à 1 800 Gbit/s Entraînement et inférence distribués à grande échelle de LLM, de systèmes de recommandation et de HPC
A3 Ultra (H200) 141 Go HBM3e à 4,8 Tbit/s NVLink Full Mesh à 900 Gbit/s Modèles volumineux avec tables de données massives pour entraînement ou inférence ML, HPC, BERT et DLRM.
A3 Mega, A3 High, A3 Edge (H100) 80 Go HBM3 à 3,35 Tbit/s NVLink Full Mesh à 900 Gbit/s Modèles volumineux avec tables de données massives pour entraînement ou inférence ML, HPC, BERT et DLRM.
A2 Ultra (A100 80 Go) 80 Go HBM2e à 1,9 Tbit/s NVLink Full Mesh à 600 Gbit/s Modèles volumineux avec tables de données massives pour entraînement ou inférence ML, HPC, BERT et DLRM.
A2 Standard (A100 40 Go) 40 Go HBM2 à 1,6 Tbit/s NVLink Full Mesh à 600 Gbit/s Entraînement et inférence ML, HPC
G4 (RTX PRO 6000) 96 Go GDDR7 avec ECC à 1 597 Go/s N/A Inférence et entraînement ML, postes de travail à distance pour la visualisation, transcodage de vidéos, HPC
G2 (L4) 24 Go GDDR6 à 300 Gbit/s N/A Inférence et entraînement ML, postes de travail à distance pour la visualisation, transcodage de vidéos, HPC
N1 (T4) 16 Go GDDR6 à 320 Gbit/s N/A Inférence et entraînement ML, postes de travail à distance pour la visualisation, transcodage de vidéos
N1 (P4) 8 Go GDDR5 à 192 Gbit/s N/A Postes de travail à distance pour la visualisation, inférence ML et transcodage de vidéos
N1 (V100) 16 Go HBM2 à 900 Gbit/s NVLink Ring à 300 Gbit/s Entraînement et inférence ML, HPC
N1 (P100) 16 Go HBM2 à 732 Gbit/s N/A Inférence et entraînement ML, HPC, postes de travail à distance pour la visualisation

Pour comparer les tarifs des GPU selon les différents modèles de GPU et les différentes régions disponibles sur Compute Engine, consultez la section Tarifs des GPU.

Performances des Tensor Cores et des cœurs CUDA standards

Les sections suivantes fournissent des métriques de performances pour chaque architecture de GPU, séparées en performances des cœurs CUDA vectoriels ou standards et des Tensor Cores.

  • Tensor Cores : les performances Tensor font référence au débit obtenu par les Tensor Cores spécialisés. Il s'agit d'unités matérielles dédiées (souvent appelées unités matricielles) conçues spécifiquement pour accélérer les opérations de multiplication et d'accumulation de matrices volumineuses qui constituent l'épine dorsale du deep learning, de l'entraînement et de l'inférence.

    Ce type de performances est idéal pour le deep learning, les grands modèles de langage (LLM) et toute charge de travail pouvant être exprimée sous forme d'opérations matricielles denses. Les Tensor Cores offrent un débit nettement supérieur à celui des CUDA Cores pour le même type de données.

  • Cœurs CUDA vectoriels ou standards : les performances vectorielles font référence au débit que les cœurs CUDA standards atteignent. Il s'agit d'unités à usage général qui fonctionnent à l'aide d'un modèle d'instruction unique et de plusieurs threads (SIMT, Single Instruction, Multiple Threads). Elles effectuent généralement des opérations sur des éléments de données ou des vecteurs individuels.

    Ce type de performances est idéal pour le calcul général, le rendu graphique et les charges de travail qui n'impliquent pas de calcul matriciel dense.

Architecture Blackwell

Les types de machines A4X Max, A4X, A4 et G4 s'exécutent sur l'architecture Blackwell de NVIDIA.

Tensor Core

L'architecture Blackwell de NVIDIA, utilisée par ces types de machines, introduit la prise en charge des Tensor Cores pour la précision FP4 et des capacités INT4 étendues pour des performances révolutionnaires dans l'inférence de grands modèles.

Type de machine (modèle de GPU) FP64 (TFLOPS) TF32 (TFLOPS) FP16/32 mixte (TFLOPS) INT8 (TOPS) INT4 (TOPS) FP8 (TFLOPS) FP4 (TFLOPS)
A4X Max (GB300) 1.3 2,500 5 000 330 155 10 000 15 000
A4X (GB200) 40 2,500 5 000 10 000 20 000 10 000 10 000
A4 (B200) 40 1 100 4 500 9 000 - 9 000 -
G4 (RTX PRO 6000) 1,8 140 935,6 1 871,2 - - 2 200
Remarques supplémentaires :
  • Pour l'entraînement de précision mixte, NVIDIA GB300, GB200, B200 et RTX PRO 6000 acceptent également le type de données bfloat16.
  • Les GPU NVIDIA GB300, GB200, B200 et RTX PRO 6000 sont compatibles avec la parcimonie structurée, qui peut doubler le débit de calcul. Les valeurs de performances de cette section supposent une multiplication matricielle dense. Si vous utilisez la parcimonie structurelle, les performances sont doublées.

Cœurs CUDA standards

Les types de machines qui utilisent l'architecture Blackwell fournissent des opérations FP64 et FP32 hautes performances pour les charges de travail exigeantes de HPC et d'IA.

Pour les A4X Max, A4X et A4, les opérations FP16 sont accélérées par les Tensor Cores. Pour la génération 4, les performances FP16 sur les cœurs CUDA standards sont incluses, car les charges de travail graphiques, telles que le rendu et la visualisation, peuvent bénéficier de la réduction de l'utilisation de la mémoire et des exigences de bande passante de la précision FP16, même lorsqu'elles n'utilisent pas les Tensor Cores.

Type de machine (modèle de GPU) FP64 (TFLOPS) FP32 (TFLOPS) FP16 (TFLOPS)
A4X Max (GB300) 1.3 80 -
A4X (GB200) 40 80 -
A4 (B200) 40 80 -
G4 (RTX PRO 6000) 2 117 117

Architectures Hopper, Ada Lovelace et Ampere

La série A3 utilise l'architecture Hopper, qui a introduit des moteurs spécialisés pour les modèles Transformer. La série A2 utilise l'architecture Ampere, qui offre une base équilibrée pour l'entraînement et l'inférence hautes performances. La série G2 utilise l'architecture Ada Lovelace, qui offre une accélération polyvalente et écoénergétique pour les charges de travail d'inférence de l'IA, de transcodage vidéo et graphiques.

Tensor Core

Les architectures Hopper, Ada Lovelace et Ampere sont dotées de Tensor Cores avancés qui accélèrent les types de données TF32, FP16, FP8 et INT8, ce qui permet d'obtenir un débit élevé pour l'entraînement et l'inférence de précision mixte.

Type de machine (modèle de GPU) FP64 (TFLOPS) TF32 (TFLOPS) FP16/32 mixte (TFLOPS) INT8 (TOPS) INT4 (TOPS) FP8 (TFLOPS)
A3 Ultra (H200) 67 989 1 979 3 958 - 3 958
A3 Mega/High/Edge (H100) 67 989 1 979 3 958 - 3 958
A2 Ultra (A100 80 Go) 19,5 156 312 624 1248 -
A2 Standard (A100 40 Go) 19,5 156 312 624 1248 -
G2 (L4) - 120 242 485 - 485
Remarques supplémentaires :
  • Pour l'entraînement de précision mixte, NVIDIA H200, H100, A100 et L4 acceptent également le type de données bfloat16.
  • Les GPU NVIDIA H200, H100, A100 et L4 sont compatibles avec la parcimonie structurelle, qui peut doubler le débit de calcul. Les valeurs de performances de cette section supposent une multiplication matricielle dense. Si vous utilisez la parcimonie structurelle, les performances sont doublées.

Cœurs CUDA standards

Les types de machines qui utilisent les architectures Hopper, Ada Lovelace et Ampere fournissent des opérations FP64 et FP32 hautes performances pour les charges de travail exigeantes de HPC et d'IA.

Type de machine (modèle de GPU) FP64 (TFLOPS) FP32 (TFLOPS)
A3 Ultra (H200) 34 67
A3 Mega, High et Edge (H100) 34 67
A2 Ultra (A100 80 Go) 9,7 19,5
A2 Standard (A100 40 Go) 9,7 19,5
G2 (L4) 0,5 30.3

Architectures Volta, Pascal et Turing

Les types de machines N1 utilisent les architectures de GPU suivantes :

Tensor Core

Les architectures Turing et Volta de NVIDIA, disponibles sur les instances N1, offrent une compatibilité avec les Tensor Cores pour les opérations de précision mixte, INT8 et INT4, ce qui permet une accélération fondamentale pour l'inférence de deep learning.

Ces GPU ont introduit les premières générations de cœurs Tensor, principalement utilisés pour l'entraînement FP16 et la quantification INT8 et INT4 dans l'inférence. Ce tableau n'inclut pas les types de machines N1 (P4) et N1 (P100), car ils ne disposent pas de Tensor Cores.

Type de machine (modèle de GPU) FP16/32 mixte (TFLOPS) INT8 (TOPS) INT4 (TOPS)
N1 (V100) 125 - -
N1 (T4) 65 130 260

Cœurs CUDA standards

Les types de machines qui utilisent les architectures Volta, Pascal et Turing sont équipés de cœurs CUDA FP64 et FP32 pour accélérer un large éventail de charges de travail HPC et d'IA. Pour les GPU P100 et P4, les performances FP16 et INT8 sont également incluses pour prendre en charge les charges de travail de deep learning.

Type de machine (modèle de GPU) FP64 (TFLOPS) FP32 (TFLOPS) Métriques supplémentaires
N1 (V100) 7,8 15.7 -
N1 (P100) 4.7 9.3 FP16 : 18,7 TFLOPS
N1 (T4) 0,25 8.1 -
N1 (P4) 0,2 5,5 INT8 : 22 TOPS

Étape suivante