本文說明在 Compute Engine 上執行的 GPU 虛擬機器 (VM) 執行個體的特性和限制。
如要加速處理 Compute Engine 上的特定工作負載,您可以部署已附加 GPU 的加速器最佳化執行個體,或是將 GPU 附加至 N1 一般用途執行個體。Compute Engine 以直通模式為執行個體提供 GPU。直通模式可讓執行個體直接控制 GPU 和其記憶體。
您也可以在 AI Hypercomputer 上使用部分 GPU 機器類型。AI Hypercomputer 是一套超級電腦系統,經過最佳化處理,可支援人工智慧 (AI) 和機器學習 (ML) 工作負載。建議您使用這個選項建立密集分配的基礎架構,並整合 Google Kubernetes Engine (GKE) 和 Slurm 排程器,以達到最佳效能。
支援的機器類型
加速器最佳化和 N1 一般用途機器系列支援 GPU。對於使用加速器最佳化機器類型的執行個體,Compute Engine 會在您建立執行個體時自動附加 GPU。對於使用 N1 機器類型的執行個體,您可以在建立執行個體時或之後將 GPU 附加至執行個體。GPU 與其他機器類型不相容。
加速器最佳化機器類型
每個加速器最佳化機型均連接特定型號的 NVIDIA GPU。如果您有 3D 視覺化等需要處理大量圖形的工作負載,也可以建立採用 NVIDIA RTX 虛擬工作站 (vWS) 的虛擬工作站。部分 GPU 型號支援 NVIDIA RTX 虛擬工作站。
機器類型 | GPU 型號 | NVIDIA RTX 虛擬工作站 (vWS) 模型 |
---|---|---|
A4X | NVIDIA GB200 Grace Blackwell 超級晶片 (nvidia-gb200 )。
每個 Superchip 包含四個 NVIDIA B200 Blackwell GPU。 |
|
A4 | NVIDIA B200 Blackwell GPU (nvidia-b200 ) |
|
A3 Ultra | NVIDIA H200 SXM GPU (nvidia-h200-141gb ) |
|
A3 Mega | NVIDIA H100 SXM GPU (nvidia-h100-mega-80gb ) |
|
A3 High、 A3 Edge | NVIDIA H100 SXM GPU (nvidia-h100-80gb ) |
|
A2 Ultra | NVIDIA A100 80 GB GPU (nvidia-a100-80gb ) |
|
A2 標準 | NVIDIA A100 40GB GPU (nvidia-a100-40gb ) |
|
G4 (預覽版) | NVIDIA RTX PRO 6000 Blackwell Server 版 (nvidia-rtx-pro-6000 ) |
|
G2 | NVIDIA L4 GPU (nvidia-l4 ) |
NVIDIA L4 虛擬工作站 GPU (nvidia-l4-vws ) |
詳情請參閱「加速器最佳化機器家族」。
N1 一般用途機器類型
除了 N1 共用核心 (f1-micro
和 g1-small
) 以外,您可以在大多數 N1 機器類型上附加下列 GPU 型號:
NVIDIA GPU:
- NVIDIA T4:
nvidia-tesla-t4
- NVIDIA P4:
nvidia-tesla-p4
- NVIDIA P100:
nvidia-tesla-p100
- NVIDIA V100:
nvidia-tesla-v100
NVIDIA RTX 虛擬工作站 (vWS) (舊稱 NVIDIA GRID):
- NVIDIA T4 虛擬工作站:
nvidia-tesla-t4-vws
- NVIDIA P4 虛擬工作站:
nvidia-tesla-p4-vws
NVIDIA P100 虛擬工作站:
nvidia-tesla-p100-vws
對於這些虛擬工作站,系統會自動將 NVIDIA RTX 虛擬工作站 (vWS) 授權新增至執行個體。
對於 N1 一般用途系列,您可以使用預先定義或自訂機器類型。
Spot VM 上的 GPU
您可以用較低的 GPU Spot 價格,將 GPU 新增至 Spot VM。連接至 Spot VM 的 GPU,在運作方式上就如同一般的 GPU,但僅會在 VM 的可用期限內保留。具有 GPU 的 Spot VM,其先占程序與其他所有 Spot VM 均相同。
建議您申請專屬 Preemptible GPU
配額,用於 Spot VM 上的 GPU。詳情請參閱「Spot VM 配額」。
在維護作業期間,根據預設會先占具有 GPU 的 Spot VM,且這類 VM 無法自動重新啟動。如要重新建立已先占的 VM,請使用代管執行個體群組。代管執行個體群組會在 vCPU、記憶體和 GPU 資源可供使用時,重新建立 VM 執行個體。
如果您想在 VM 遭到先占前收到警告,或是想將 VM 設定成在維護作業過後自動重新啟動,請使用具有 GPU 的標準 VM。對於搭載 GPU 的標準 VM,Compute Engine 會在先占前提前一小時通知。
如果 GPU 的 VM 在開始執行後的一分鐘內即已先占,則 Compute Engine 不會向您收取 GPU 的使用費。
如要瞭解如何建立附加 GPU 的 Spot VM,請參閱「建立附加 GPU 的 VM」和「建立 Spot VM」。舉例來說,請參閱「使用 Spot VM 建立 A3 Ultra 或 A4 執行個體」。
具有預先定義執行時間的執行個體上的 GPU
使用標準佈建模式的執行個體通常無法使用先占分配配額。先占配額適用於臨時工作負載,通常較容易取得。如果專案沒有先占配額,且您從未要求配額,專案中的所有執行個體都會消耗標準分配配額。
如果您要求搶占式配置配額,則使用標準佈建模型的執行個體必須符合下列所有條件,才能消耗搶占式配置配額:
- 執行個體已附加 GPU。
- 系統會透過
maxRunDuration
或terminationTime
欄位,將執行個體設定為在預先定義的執行時間後自動刪除。詳情請參閱下列說明: - 執行個體不得使用預留項目。詳情請參閱「禁止運算執行個體使用預留項目」。
當您為有時間限制的 GPU 工作負載使用先占分配量時,可以同時享有不間斷的執行時間,以及先占分配量配額的高取得率。詳情請參閱「先佔配額」。
GPU 和機密 VM
您可以在 A3 機器系列上,搭配使用 GPU 和採用 Intel TDX 的 Confidential VM 執行個體。詳情請參閱機密 VM 的支援設定。如要瞭解如何建立搭載 GPU 的機密 VM 執行個體,請參閱「建立搭載 GPU 的機密 VM 執行個體」。
GPU 和區塊儲存空間
使用 GPU 機器類型建立執行個體時,可以將永久或暫時的區塊儲存空間新增至執行個體。如要儲存非暫時性資料,請使用永久區塊儲存空間,例如 Hyperdisk 或永久磁碟,因為這些磁碟與執行個體的生命週期無關。即使刪除執行個體,永久儲存空間中的資料仍可保留。
如要使用暫存區塊儲存空間做為暫存儲存空間或快取,請在建立執行個體時新增本機 SSD 磁碟。
使用 Persistent Disk 和 Hyperdisk 磁碟區的永久區塊儲存空間
您可以將 Persistent Disk 和 Hyperdisk 磁碟區連接至已啟用 GPU 的執行個體。
如要處理機器學習 (ML) 和服務工作負載,請使用 Hyperdisk ML 磁碟區,這類磁碟區提供高處理量,並縮短資料載入時間。Hyperdisk ML 可減少 GPU 閒置時間,因此是機器學習工作負載更具成本效益的選擇。
Hyperdisk ML 磁碟區提供唯讀多重附加支援,因此您可以將相同磁碟附加至多個執行個體,讓每個執行個體存取相同資料。
如要進一步瞭解支援 GPU 的機器系列支援的磁碟類型,請參閱 N1 和加速器最佳化機器系列頁面。
本機固態硬碟磁碟
本機 SSD 磁碟可提供快速的暫時儲存空間,用於快取、資料處理或其他暫時性資料。本機 SSD 磁碟與代管執行個體的伺服器實體連接,因此提供快速儲存空間。本機 SSD 磁碟提供暫時儲存空間,因為執行個體重新啟動時會遺失資料。
請勿在本機 SSD 磁碟上儲存需要高度持久性的資料。如要儲存非暫時性資料,請改用永久儲存空間。
如果手動停止含有 GPU 的執行個體,可以保留本機 SSD 資料,但須遵守特定限制。詳情請參閱本機 SSD 說明文件。
如要瞭解各區域支援的 GPU 類型和本機 SSD,請參閱各 GPU 區域和可用區的本機 SSD 可用性。
GPU 和主機維護
當主機伺服器執行維護事件時,Compute Engine 一律會停止附加 GPU 的執行個體。如果執行個體已連結本機 SSD 磁碟,停止執行個體後,本機 SSD 資料就會遺失。
如要瞭解如何處理維護作業,請參閱「處理 GPU 主機維護事件」。
GPU 定價
如果執行個體附加 GPU,則會產生下列費用:
如果您要求 Compute Engine 使用現成、彈性啟動或預留綁定佈建模型佈建 GPU,可享有折扣價 (視 GPU 類型而定)。
如果執行個體附加 GPU,大多可享有與 vCPU 相似的續用折扣 (SUD)。選用適用於虛擬工作站的 GPU 時,Compute Engine 會自動將 NVIDIA RTX 虛擬工作站授權新增至執行個體。
如要瞭解 GPU 每小時和每月的價格,請參閱 GPU 定價頁面。
以承諾使用折扣預留 GPU
如要在特定區域預留 GPU 資源,請參閱選擇預留類型。
如要享有特定區域的 GPU 承諾使用折扣,請務必購買 GPU 的資源承諾使用合約,並將指定相符 GPU 的預留項目附加至承諾使用合約。詳情請參閱「將預留項目加入以資源為準的承諾使用合約」一文。
GPU 限制
如果執行個體已附加 GPU,則適用下列限制:
只有加速器最佳化 (A4X、A4、A3、A2 和 G2) 和一般用途 N1 機器類型支援 GPU。
為保護 Compute Engine 系統和使用者,新專案有全域 GPU 配額,這會限制您可在任何受支援區域中建立的 GPU 總數。要求 GPU 配額時,您必須為要在各個地區中建立的 GPU 模型要求配額,並依據所有區域中全部類型之 GPU 的總數要求額外的全域配額。
如果執行個體有一或多個 GPU,針對新增至執行個體的每一 GPU,均有 vCPU 數量上限。如要查看不同 GPU 設定的可用 vCPU 和記憶體範圍,請參閱 GPU 清單。
GPU 需要裝置驅動程式才能正常運作。在 Compute Engine 上執行的 NVIDIA GPU 必須使用最低驅動程式版本。如要進一步瞭解驅動程式版本,請參閱「必要 NVIDIA 驅動程式版本」。
只有附加的 GPU 模型為正式版時,Compute Engine 服務水準協議才適用於附加該 GPU 模型的執行個體。
如果地區有多個可用區,只有當 GPU 模型在該地區有多個可用區提供使用時,Compute Engine 服務水準協議才會涵蓋執行個體。如要查看各區域的 GPU 型號,請參閱 GPU 區域和可用區。
Compute Engine 支援每個 GPU 能有 1 位並行使用者。
另請參閱各機器類型搭配附加 GPU 的限制。
後續步驟
- 瞭解如何建立附加 GPU 的執行個體。
- 瞭解如何新增或移除 GPU。
- 瞭解如何建立附加 GPU 的機密 VM 執行個體。