In diesem Dokument werden die Features und Einschränkungen von Compute Engine-Instanzen mit angehängten GPUs beschrieben.
Wenn Sie bestimmte Arbeitslasten in Compute Engine beschleunigen möchten, können Sie entweder eine beschleunigungsoptimierte Instanz mit angehängten GPUs bereitstellen oder GPUs an eine N1-Instanz für allgemeine Zwecke anhängen. Für die meisten Arbeitslasten stellt Compute Engine GPUs für Ihre Instanzen im Passthrough-Modus, wodurch Ihre Instanzen die GPUs und ihren Arbeitsspeicher direkt steuern können. Für grafikintensivere Arbeitslasten, die auf G4-, G2- oder N1-GPUs ausgeführt werden, können Sie jedoch NVIDIA RTX Virtual Workstations (vWS) verwenden. Auf G4-Instanzen ermöglicht NVIDIA RTX vWS die Verwendung von Maschinentypen mit teilweiser GPU-Nutzung. Bei diesen Maschinentypen kann eine einzelne physische GPU von mehreren virtuellen Workstations gemeinsam genutzt werden, indem jeder Instanz eine virtuelle GPU (vGPU) zugewiesen wird. G2- und N1-Instanzen unterstützen vWS, aber keine Maschinentypen mit teilweiser vGPU-Nutzung.
Sie können auch einige GPU-Maschinentypen auf AI Hypercomputer verwenden. AI Hypercomputer ist ein Supercomputing-System, das Ihre Arbeitslasten im Bereich künstliche Intelligenz (KI) und maschinelles Lernen (ML) unterstützt. Diese Option wird empfohlen, um eine eng zugewiesene, leistungsoptimierte Infrastruktur mit Integrationen für Google Kubernetes Engine- (GKE) und Slurm-Scheduler zu erstellen.
Unterstützte Maschinentypen
Compute Engine bietet verschiedene Maschinentypen zur Unterstützung Ihrer verschiedenen Arbeitslasten.
Einige Maschinentypen unterstützen NVIDIA RTX Virtual Workstations (vWS). Wenn Sie eine Instanz erstellen, die NVIDIA RTX Virtual Workstation verwendet, fügt Compute Engine automatisch eine vWS-Lizenz hinzu. Informationen zu Preisen für virtuelle Workstations finden Sie auf der Seite GPU-Preise.
| GPU-Maschinentypen | |||
|---|---|---|---|
| KI- und ML-Arbeitslasten | Grafiken und Visualisierung | Andere GPU-Arbeitslasten | |
|
Beschleunigeroptimierte Maschinentypen der A-Serie sind für Arbeitslasten aus den Bereichen Hochleistungs-Computing (HPC), künstliche Intelligenz (KI) und maschinelles Lernen (ML) konzipiert.
Die späteren Generationen der A-Serie eignen sich ideal für das Vortraining und die Feinabstimmung Foundation Models, bei denen große Cluster von Beschleunigern verwendet werden. Die A2 Serie kann für das Training kleinerer Modelle und die Inferenz mit einzelnen Hosts verwendet werden. Bei diesen Maschinentypen wird das GPU-Modell automatisch an die Instanz angehängt. |
Beschleunigungsoptimierte Maschinentypen der G-Serie sind für Arbeitslasten wie NVIDIA Omniverse-Simulationsarbeitslasten, grafikintensive Anwendungen, Videotranscodierung und virtuelle Desktops konzipiert. Diese Maschinentypen unterstützen
NVIDIA RTX Virtual Workstations (vWS).
Die G-Serie kann auch für das Training kleinerer Modelle und für die Inferenz mit einzelnen Hosts verwendet werden. Bei diesen Maschinentypen wird das GPU-Modell automatisch an die Instanz angehängt. |
Für N1-Maschinentypen für allgemeine Zwecke, mit Ausnahme von N1-Maschinentypen mit gemeinsam genutztem Kern
( |
|
|
Die folgenden GPU-Modelle können an N1-Maschinentypen für allgemeine Zwecke angehängt werden:
|
||
GPUs auf Spot-VMs
Sie können Ihren Spot-VMs GPUs zu niedrigeren Spot-Preisen für die GPUs hinzufügen. An Spot-VMs angehängte GPUs funktionieren wie normale GPUs, bleiben jedoch nur für die Lebensdauer der VM bestehen. Für Spot-VMs mit GPUs gilt derselbe Prozess für vorzeitiges Beenden wie für alle Spot-VMs.
Bei Wartungsereignissen werden Spot-VMs mit GPUs standardmäßig vorzeitig beendet und können nicht automatisch neu gestartet werden. Wenn Sie die Instanzen neu erstellen möchten, nachdem sie beendet wurden, verwenden Sie eine verwaltete Instanzgruppe. Verwaltete Instanzgruppen erstellen Ihre VM-Instanzen neu, sofern die vCPU-, Speicher- und GPU-Ressourcen verfügbar sind.
Wenn Sie eine Warnung erhalten möchten, dass die VMs vorzeitig beendet werden, oder wenn Sie die VMs so konfigurieren möchten, dass sie nach einer Wartung automatisch neu gestartet werden, verwenden Sie Standard-VMs mit einer GPU. Für Standard-VMs mit GPUs bietet Compute Engine vor dem vorzeitigen Beenden eine Stunde im Voraus eine Warnung.
Compute Engine berechnet Ihnen keine GPUs, wenn ihre Instanzen in der ersten Minute nach dem Start der Ausführung wieder beendet werden.
Informationen zum Erstellen von Spot-VMs mit angehängten GPUs finden Sie unter VM mit angehängten GPUs erstellen und Spot-VMs erstellen. Ein Beispiel finden Sie unter A3 Ultra- oder A4-Instanz mit Spot-VMs erstellen.
GPUs auf Instanzen mit vordefinierten Laufzeiten
Für Instanzen, die das Standardbereitstellungsmodell verwenden, können in der Regel keine Kontingente für die Zuweisung auf Abrufverwendet werden. Kontingente auf Abruf sind für temporäre Arbeitslasten vorgesehen und in der Regel verfügbarer. Wenn Ihr Projekt kein Kontingent auf Abruf hat und Sie es noch nie angefordert haben, werden für alle Instanzen in Ihrem Projekt Standardkontingente für die Zuweisung verwendet.
Wenn Sie ein Kontingent für die Zuteilung auf Abruf anfordern, müssen Instanzen, die das Standardbereitstellungsmodell verwenden, alle folgenden Kriterien erfüllen, um das Kontingent für die Zuteilung auf Abruf zu nutzen:
- Die Instanzen haben angehängte GPUs.
- Die Instanzen sind so konfiguriert, dass sie nach einer vordefinierten Laufzeit über das Feld
maxRunDurationoderterminationTimeautomatisch gelöscht werden. Weitere Informationen finden Sie unter: - Die Instanz darf keine Reservierungen nutzen. Weitere Informationen finden Sie unter Verhindern, dass Compute-Instanzen Reservierungen nutzen.
Wenn Sie ein Zuteilungskontingent auf Abruf für zeitgebundene GPU-Arbeitslasten nutzen, profitieren Sie sowohl von der unterbrechungsfreien Laufzeit als auch von der hohen Verfügbarkeit des Zuteilungskontingents auf Abruf. Weitere Informationen finden Sie unter Kontingente auf Abruf.
GPUs und Confidential VMs
Sie können eine GPU mit einer Confidential VM-Instanz verwenden, die Intel TDX auf der A3-Maschinenserie nutzt. Weitere Informationen finden Sie unter Confidential VM unterstützte Konfigurationen. Informationen zum Erstellen einer Confidential VM-Instanz mit GPUs finden Sie unter Confidential VM-Instanz mit GPU erstellen.
GPUs und Blockspeicher
Wenn Sie eine Instanz mit einem GPU-Maschinentyp erstellen, können Sie der Instanz nichtflüchtigen oder temporären Blockspeicher hinzufügen. Verwenden Sie zum Speichern nichtflüchtiger Daten nichtflüchtigen Blockspeicher wie Hyperdisk oder nichtflüchtigen Speicher, da diese Laufwerke unabhängig vom Lebenszyklus der Instanz sind. Daten auf nichtflüchtigem Speicher können auch nach dem Löschen der Instanz aufbewahrt werden.
Verwenden Sie für temporären Scratch-Speicher oder Caches temporären Blockspeicher, indem Sie beim Erstellen der Instanz lokale SSDs hinzufügen.
Nichtflüchtiger Blockspeicher mit Persistent Disk- und Hyperdisk-Volumes
Sie können Persistent Disk- und ausgewählte Hyperdisk Volumes an GPU-fähige Instanzen anhängen.
Verwenden Sie für Arbeitslasten im Bereich maschinelles Lernen (ML) und Bereitstellung Hyperdisk ML-Volumes, die einen hohen Durchsatz und kürzere Datenladezeiten bieten. Hyperdisk ML ist eine kostengünstigere Option für ML-Arbeitslasten, da die GPU-Inaktivitätszeiten kürzer sind.
Hyperdisk ML-Volumes bieten Unterstützung für das Anhängen an mehrere Instanzen im Lesemodus. Sie können also dasselbe Laufwerk an mehrere Instanzen anhängen, sodass jede Instanz Zugriff auf dieselben Daten hat.
Weitere Informationen zu den unterstützten Laufwerkstypen für Maschinenserien, die GPUs unterstützen, finden Sie auf den Seiten für die N1 und beschleunigungsoptimierten Maschinenserien.
Lokale SSDs
Lokale SSDs bieten schnellen, temporären Speicher für das Caching, die Datenverarbeitung oder andere sitzungsspezifische Daten. Lokale SSDs sind schnelle Speicher, da sie physisch mit dem Server verbunden sind, auf dem Ihre Instanz gehostet wird. Lokale SSDs bieten temporären Speicher, da die Instanz beim Neustart Daten verliert.
Speichern Sie keine Daten mit hohen Anforderungen an die Persistenz auf lokalen SSDs. Verwenden Sie stattdessen nichtflüchtigen Speicher, um nichtflüchtige Daten zu speichern.
Wenn Sie eine Instanz mit einer GPU manuell beenden, können Sie die lokalen SSD-Daten unter bestimmten Einschränkungen beibehalten. Weitere Informationen finden Sie in der Dokumentation zu lokalen SSDs.
Informationen zur regionalen Unterstützung für lokale SSDs mit GPU-Typen finden Sie unter Verfügbarkeit lokaler SSDs.
GPUs und Hostwartung
Compute Engine beendet Instanzen mit angehängten GPUs immer, wenn Wartungsereignisse auf dem Hostserver ausgeführt werden. Wenn die Instanz angehängte lokale SSDs hat, gehen die lokalen SSD-Daten nach dem Beenden der Instanz verloren.
Weitere Informationen zum Umgang mit Wartungsereignissen finden Sie unter GPU-Hostwartungen.
GPU-Kapazität reservieren
Reservierungen bieten eine hohe Sicherheit für die Kapazität für zonenspezifische Ressourcen, einschließlich GPUs. Mit Reservierungen können Sie dafür sorgen, dass GPUs verfügbar sind, wenn Sie sie für leistungsintensive Anwendungen benötigen. Informationen zu den verschiedenen Methoden zum Reservieren zonenspezifischer Ressourcen in Compute Engine finden Sie unter Reservierungstyp auswählen.
Reservierungen sind auch erforderlich, wenn Sie Rabatte für zugesicherte Nutzung für Ihre GPUs erhalten möchten.
GPU-Preise
Wenn Sie Compute Engine anfordern, GPUs mit dem Spot-, Flex-Start- oder reservierungsgebundenen Bereitstellungsmodell, bereitzustellen, erhalten Sie die GPUs je nach GPU-Typ zu ermäßigten Preisen. Sie können auch Rabatte für zugesicherte Nutzung oder Rabatte für kontinuierliche Nutzung (nur mit N1-VMs) für Ihre GPU-Nutzung erhalten.
Informationen zu stündlichen und monatlichen Preisen für GPUs finden Sie auf der Seite GPU-Preise.
Rabatte für zugesicherte Nutzung für GPUs
Ressourcenbasierte Zusicherungen bieten hohe Rabatte für Compute Engine-Ressourcen, wenn Sie sich verpflichten, die Ressourcen mindestens ein Jahr lang in einer bestimmten Region zu nutzen. In der Regel kaufen Sie Zusicherungen für Ressourcen wie vCPUs, Arbeitsspeicher, GPUs und lokale SSDs zur Verwendung mit einer bestimmten Maschinenserie. Wenn Sie Ihre Ressourcen nutzen, erhalten Sie die entsprechende Ressourcennutzung zu ermäßigten Preisen. Weitere Informationen zu diesen Rabatten finden Sie unter Ressourcenbasierte Rabatte für zugesicherte Nutzung.
Wenn Sie eine Zusicherung mit GPUs erwerben möchten, müssen Sie die GPUs auch reservieren und die Reservierungen an Ihre Zusicherung anhängen. Weitere Informationen zum Anhängen von Reservierungen an Zusicherungen finden Sie unter Reservierungen an ressourcenbasierte Zusicherungen anhängen.
Rabatte für kontinuierliche Nutzung für GPUs
Für Instanzen, die N1-Maschinentypen mit angehängten GPUs verwenden, gelten Rabatte für kontinuierliche Nutzung, ebenso wie für vCPUs. Wenn Sie eine GPU für eine virtuelle Workstation auswählen, fügt Compute Engine Ihrer Instanz automatisch eine NVIDIA RTX Virtual Workstation-Lizenz hinzu.
GPU-Einschränkungen und Beschränkungen
Für Instanzen mit angehängten GPUs gelten die folgenden Beschränkungen und Einschränkungen:
GPUs werden nur von beschleunigungsoptimierten (A4X Max, A4X, A4, A3, A2, G4 und G2) und N1-Maschinentypen für allgemeine Zwecke unterstützt.
Zum Schutz der Systeme und Nutzer von Compute Engine haben neue Projekte ein globales GPU-Kontingent, das die Gesamtzahl der GPUs begrenzt, die Sie in einer unterstützten Zone erstellen können. Wenn Sie ein GPU-Kontingent anfordern, müssen Sie ein Kontingent für die GPU-Modelle, die Sie in den einzelnen Regionen erstellen möchten, sowie ein zusätzliches globales Kontingent für die Gesamtzahl der GPUs aller Typen in allen Zonen anfordern.
Für Instanzen mit einer oder mehreren GPUs gilt eine maximale Anzahl von vCPUs für jede einzelne GPU, die Sie in die Instanz einfügen. Die verfügbaren vCPU- und Speicherbereiche für verschiedene GPU-Konfigurationen können Sie der GPU-Liste entnehmen.
GPUs benötigen Gerätetreiber, um ordnungsgemäß zu funktionieren. NVIDIA-GPUs, die auf Compute Engine ausgeführt werden, müssen eine Mindesttreiberversion verwenden. Weitere Informationen zu Treiberversionen finden Sie unter Erforderliche NVIDIA-Treiberversionen.
Das Compute Engine-SLA gilt für Instanzen mit einem angehängten GPU-Modell nur, wenn dieses angehängte GPU-Modell allgemein verfügbar ist.
In Regionen mit mehreren Zonen gilt das Compute Engine-SLA für die Instanz nur, wenn das GPU-Modell in mehr als einer Zone in dieser Region verfügbar ist. Informationen zu GPU-Modellen nach Region finden Sie unter GPU-Standorte.
Compute Engine unterstützt einen gleichzeitigen Nutzer pro GPU oder vGPU.
Beachten Sie auch die Einschränkungen für die einzelnen Maschinentypen mit angehängten GPUs.
Nächste Schritte
- Instanzen mit angehängten GPUs erstellen
- Erfahren Sie, wie Sie GPUs hinzufügen oder entfernen.
- Confidential VM-Instanz mit angehängter GPU erstellen .