Ce document décrit les fonctionnalités et les limites des instances Compute Engine auxquelles des GPU sont associés.
Pour accélérer des charges de travail spécifiques sur Compute Engine, vous pouvez déployer une instance optimisée pour les accélérateurs à laquelle des GPU sont associés, ou associer des GPU à une instance à usage général N1. Pour la plupart des charges de travail, Compute Engine fournit des GPU pour vos instances en mode passthrough, ce qui leur permet de contrôler directement les GPU et leur mémoire. Toutefois, pour les charges de travail plus exigeantes en ressources graphiques et exécutées sur des GPU G4, G2 ou N1, vous pouvez utiliser des postes de travail virtuels NVIDIA RTX (vWS). Sur les instances G4, les postes de travail virtuels NVIDIA RTX permettent d'utiliser des types de machines avec GPU fractionné. Avec ces types de machines, un seul GPU physique peut être partagé par plusieurs postes de travail virtuels en attribuant un GPU virtuel (vGPU) à chaque instance. Les instances G2 et N1 sont compatibles avec les postes de travail virtuels, mais pas avec les types de machines avec vGPU fractionné.
Vous pouvez également utiliser certains types de machines GPU sur AI Hypercomputer. AI Hypercomputer est un système de supercalcul optimisé pour gérer vos charges de travail d'intelligence artificielle (IA) et de machine learning (ML). Cette option est recommandée pour créer une infrastructure à allocation dense et optimisée pour les performances, qui intègre les planificateurs Google Kubernetes Engine (GKE) et Slurm.
Types de machines compatibles
Compute Engine propose différents types de machines pour prendre en charge vos diverses charges de travail.
Certains types de machines sont compatibles avec les postes de travail virtuels (vWS) NVIDIA RTX. Lorsque vous créez une instance qui utilise un poste de travail virtuel NVIDIA RTX, Compute Engine ajoute automatiquement une licence de poste de travail virtuel. Pour en savoir plus sur la tarification des postes de travail virtuels, consultez la page Tarifs des GPU.
| Types de machines avec GPU | |||
|---|---|---|---|
| Charges de travail d'IA et de ML | Graphiques et visualisation | Autres charges de travail GPU | |
|
Les types de machines de série A optimisées pour les accélérateurs sont conçus pour les charges de travail de calcul hautes
performances (HPC), d'intelligence artificielle (IA) et de machine
learning (ML).
La dernière génération de la série A est idéale pour le pré-entraînement et l'affinage des modèles de fondation impliquant de grands clusters d'accélérateurs, tandis que la série A2 peut être utilisée pour entraîner des modèles plus petits et pour l'inférence sur un seul hôte. Pour ces types de machines, le modèle de GPU est automatiquement associé à l'instance. |
Les types de machines de série G optimisées pour les accélérateurs sont conçus pour les charges de travail de simulation NVIDIA Omniverse, les applications exigeantes en ressources graphiques, le transcodage vidéo et les bureaux virtuels. Ces types de machines sont compatibles avec
les postes de travail virtuels (vWS) NVIDIA RTX.
La série G peut également être utilisée pour entraîner des modèles plus petits et pour l'inférence sur un seul hôte. Pour ces types de machines, le modèle de GPU est automatiquement associé à l'instance. |
Pour les types de machines à usage général N1, à l'exception des types N1 à cœur partagé
( |
|
|
Les modèles de GPU suivants peuvent être associés à des types de machines à usage général N1
:
|
||
GPU sur des VM Spot
Vous pouvez ajouter des GPU à vos VM Spot en bénéficiant de tarifs Spot plus bas pour les GPU. Les GPU associés à des VM Spot fonctionnent comme des GPU normaux, à ceci près que leur durée de vie n'excède pas celle de la VM. Les VM Spot avec GPU suivent le même processus de préemption que toutes les VM Spot.
Lors des événements de maintenance, les VM Spot avec GPU sont préemptées par défaut et ne peuvent pas être redémarrées automatiquement. Si vous souhaitez recréer vos VM après leur préemption, utilisez un groupe d'instances géré. Les groupes d'instances gérés recréent vos VM si les ressources de vCPU, de mémoire et de GPU nécessaires sont disponibles.
Si vous souhaitez être averti avant que vos VM soient préemptées, ou si vous souhaitez configurer vos VM pour qu'elles redémarrent automatiquement après un événement de maintenance, utilisez des VM standards avec un GPU. Pour les VM standards comportant des GPU, Compute Engine envoie un avis préalable une heure avant la préemption.
L'utilisation de GPU sur Compute Engine ne vous est pas facturée si leurs VM sont préemptées dans la minute qui suit leur exécution.
Pour découvrir comment créer des VM Spot avec des GPU associés, consultez Créer une VM avec des GPU associés et Créer des VM Spot. Par exemple, consultez Créer une instance A3 Ultra ou A4 à l'aide de VM Spot.
GPU sur des instances avec des durées d'exécution prédéfinies
Les instances qui utilisent le modèle de provisionnement standard ne peuvent généralement pas utiliser les quotas d'allocation préemptifs. Les quotas préemptifs sont destinés aux charges de travail temporaires et sont généralement davantage disponibles. Si votre projet ne dispose pas de quota préemptif et que vous n'en avez jamais fait la demande, toutes les instances de votre projet consomment des quotas d'allocation standards.
Si vous demandez un quota d'allocation préemptif, les instances qui utilisent le modèle de provisionnement standard doivent répondre à tous les critères suivants pour consommer le quota d'allocation préemptif :
- Les instances sont associées à des GPU.
- Les instances sont configurées pour être automatiquement supprimées après une durée d'exécution prédéfinie via le champ
maxRunDurationouterminationTime. Pour en savoir plus, consultez les ressources suivantes : - L'instance n'est pas autorisée à consommer des réservations. Pour en savoir plus, consultez Empêcher les instances de calcul de consommer des réservations.
Lorsque vous consommez une allocation préemptive pour des charges de travail GPU temporalisées, vous pouvez bénéficier à la fois d'une durée d'exécution ininterrompue et d'une meilleur disponibilité grâce au quota d'allocation préemptif. Pour en savoir plus, consultez Quotas préemptifs.
GPU et Confidential VM
Vous pouvez utiliser un GPU avec une instance Confidential VM qui utilise Intel TDX sur la série de machines A3. Pour en savoir plus, consultez Confidential VM configurations compatibles. Pour découvrir comment créer une instance Confidential VM avec des GPU, consultez Créer une instance Confidential VM avec un GPU.
GPU et stockage de blocs
Lorsque vous créez une instance à l'aide d'un type de machine avec GPU, vous pouvez ajouter un stockage de blocs persistant ou temporaire à l'instance. Pour stocker des données non transitoires, utilisez un stockage de blocs persistant tel que Hyperdisk ou Persistent Disk car ces disques sont indépendants du cycle de vie de l'instance. Les données stockées sur un stockage persistant peuvent être conservées même après la suppression de l'instance.
Pour le stockage temporaire ou les caches, utilisez un stockage de blocs temporaire en ajoutant des disques SSD locaux lorsque vous créez l'instance.
Stockage de blocs persistant avec des volumes Persistent Disk et Hyperdisk
Vous pouvez associer des volumes Persistent Disk et sélectionner Hyperdisk volumes à des instances compatibles avec les GPU.
Pour les charges de travail de machine learning (ML) et de mise en service, utilisez des volumes Hyperdisk ML, qui offrent un débit élevé et des temps de chargement de données plus courts. Hyperdisk ML est une option plus économique pour les charges de travail de ML, car elle offre des temps d'inactivité du GPU plus courts.
Les volumes Hyperdisk ML sont compatibles avec la fonctionnalité multi-association en lecture seule. Vous pouvez donc associer le même disque à plusieurs instances, ce qui permet à chaque instance d'accéder aux mêmes données.
Pour en savoir plus sur les types de disques compatibles avec les séries de machines compatibles avec les GPU, consultez les N1 et optimisées pour les accélérateurs.
Disques SSD locaux
Les disques SSD locaux fournissent un stockage rapide et temporaire pour la mise en cache, le traitement des données ou d'autres données transitoires. Les disques SSD locaux offrent un stockage rapide, car ils sont rattachés physiquement au serveur qui héberge votre instance. Les disques SSD locaux fournissent un stockage temporaire, car l'instance perd des données si elle redémarre.
Évitez de stocker des données nécessitant une forte persistance sur des disques SSD locaux. Pour stocker des données non transitoires, utilisez un stockage persistant au lieu.
Si vous arrêtez manuellement une instance avec un GPU, vous pouvez conserver les données des disques SSD locaux, avec certaines restrictions. Pour en savoir plus, consultez la documentation sur les SSD locaux.
Pour connaître la compatibilité régionale des disques SSD locaux avec les types de GPU, consultez la section Disponibilité des disques SSD locaux.
GPU et maintenance de l'hôte
Compute Engine arrête toujours les instances avec des GPU associés lorsqu'il effectue des événements de maintenance sur le serveur hôte. Si l'instance est associée à des disques SSD locaux, elle perd les données des disques SSD locaux après son arrêt.
Pour en savoir plus sur la gestion des événements de maintenance, consultez la section Gérer les événements de maintenance de l'hôte GPU.
Réserver de la capacité GPU
Les réservations offrent un haut niveau d'assurance pour les ressources spécifiques à une zone, y compris les GPU. Vous pouvez utiliser des réservations pour vous assurer que vous disposez de GPU lorsque vous en avez besoin pour des applications exigeantes en termes de performances. Pour connaître les différentes méthodes de réservation de ressources spécifiques à une zone dans Compute Engine, consultez Choisir un type de réservation.
Les réservations sont également obligatoires lorsque vous souhaitez bénéficier de remises sur engagement d'utilisation pour vos GPU.
Tarifs des GPU
Si vous demandez à Compute Engine de provisionner des GPU à l'aide du modèle de provisionnement Spot, à démarrage flexible ou lié à une réservation, vous bénéficiez de tarifs réduits, en fonction du type de GPU. Vous pouvez également bénéficier de remises sur engagement d'utilisation ou de remises automatiques proportionnelles à une utilisation soutenue (uniquement avec les VM N1) pour votre utilisation de GPU.
Pour connaître les tarifs horaires et mensuels des GPU, consultez la page Tarifs des GPU.
Remises sur engagement d'utilisation pour les GPU
Les engagements basés sur les ressources offrent des remises importantes sur les ressources Compute Engine en échange de votre engagement à utiliser les ressources dans une région spécifique pendant au moins un an. En général, vous souscrivez des engagements pour les ressources telles que les processeurs virtuels, la mémoire, les GPU et les disques SSD locaux à utiliser avec une série de machines spécifique. Lorsque vous utilisez vos ressources, vous bénéficiez de tarifs réduits pour l'utilisation des ressources éligibles. Pour en savoir plus sur ces remises, consultez Remises sur engagement d'utilisation basées sur les ressources.
Pour souscrire un engagement avec des GPU, vous devez également réserver les GPU et associer les réservations à votre engagement. Pour en savoir plus sur l'association de réservations à des engagements, consultez Associer des réservations à des engagements basés sur les ressources.
Remises automatiques sur les GPU
Les instances qui utilisent des types de machines N1 avec des GPU associés bénéficient de remises automatiques proportionnelles à une utilisation soutenue, comme c'est le cas pour les processeurs virtuels. Lorsque vous sélectionnez un GPU pour un poste de travail virtuel, Compute Engine ajoute automatiquement une licence de poste de travail virtuel NVIDIA RTX à votre instance.
Restrictions et limitations des GPU
Pour les instances auxquelles sont associés des GPU, les restrictions et limites suivantes s'appliquent :
Seuls les types de machines optimisés pour les accélérateurs (A4X Max, A4X, A4, A3, A2, G4 et G2) et usage général (N1) sont compatibles avec les GPU.
Pour protéger les systèmes et les utilisateurs de Compute Engine, les nouveaux projets bénéficient d'un quota global de GPU, ce qui limite le nombre total de GPU que vous pouvez créer dans les zones disponibles. Lorsque vous demandez un quota de GPU, vous devez inclure les modèles de GPU que vous souhaitez créer dans chaque région, mais également demander un quota global supplémentaire pour le nombre total de GPU de tous types, dans toutes les zones.
Les instances avec un ou plusieurs GPU possèdent un nombre maximal de processeurs virtuels pour chaque GPU que vous ajoutez à l'instance. Pour afficher les processeurs virtuels et plages de mémoire disponibles pour différentes configurations de GPU, consultez la liste des GPU.
Les GPU nécessitent des pilotes d'appareil pour fonctionner correctement. Les GPU NVIDIA exécutés sur Compute Engine doivent utiliser une version minimale du pilote. Pour en savoir plus sur les versions de pilote, consultez la page sur les versions de pilote NVIDIA requises.
Le contrat de niveau de service de Compute Engine ne couvre les instances avec un modèle de GPU associé que si ce modèle de GPU associé est accessible à tous.
Pour les régions comportant plusieurs zones, le contrat de niveau de service de Compute Engine ne couvre l'instance que si le modèle de GPU est disponible dans plusieurs zones de cette région. Pour connaître les modèles de GPU par région, consultez la section Emplacements des GPU.
Compute Engine accepte un utilisateur simultané par GPU ou vGPU.
Consultez également les limites de chaque type de machine avec des GPU associés.
Étape suivante
- Découvrez comment créer des instances avec des GPU associés.
- Découvrez comment ajouter ou supprimer des GPU.
- Découvrez comment créer une instance Confidential VM avec un GPU associé.