關於 Trusted Cloud by S3NS 上的 GPU

Trusted Cloud by S3NS 專注於提供世界級的人工智慧 (AI) 基礎架構,在各個領域提供最嚴苛的 GPU 加速工作負載。您可以使用 GPU 在 Trusted Cloud by S3NS 上執行 AI、機器學習 (ML)、科學、分析、工程、消費性和企業應用程式。

透過與 NVIDIA 的合作, Trusted Cloud by S3NS 可提供最新的 GPU,同時透過各種儲存空間和網路選項,對軟體堆疊進行最佳化。如需可用 GPU 的完整清單,請參閱「GPU 平台」。

以下各節將概述在 Trusted Cloud by S3NS上使用 GPU 的優點。

GPU 加速 VM

在 Trusted Cloud by S3NS上,您可以根據需求,以最合適的方式存取及配置 GPU。我們提供專屬的加速器最佳化機器系列,內建 GPU 和網路功能,可盡可能提高效能。這些機器系列包括 A4X、A4、A3、A2 和 G2。

多種佈建選項

您可以使用加速器最佳化機器系列,搭配下列任何開放原始碼或 Trusted Cloud by S3NS 產品來佈建叢集。

Vertex AI

Vertex AI 是全代管機器學習 (ML) 平台,可用於訓練及部署 ML 模型和 AI 應用程式。在 Vertex AI 應用程式中,您可以使用 GPU 加速 VM,以下列方式提升效能:

Cluster Director

Cluster Director (舊稱 Hypercompute Cluster) 是一組功能和服務,可讓您部署及管理大量 (最多數萬個) 加速器和網路資源,這些資源會以單一同質單元運作。這個選項非常適合用來建立密集配置的基礎架構,以便達到最佳效能,並整合 Google Kubernetes Engine (GKE) 和 Slurm 排程器。叢集總管可協助您建構專門用於執行 AI、機器學習和 HPC 工作負載的基礎架構。詳情請參閱「叢集總監」。

如要開始使用 Cluster Director,請參閱「選擇部署策略」。

Compute Engine

您也可以在 Compute Engine 上建立及管理個別 VM 或小型 VM 叢集,並附加 GPU。這個方法主要用於執行圖像密集型工作負載、模擬工作負載或小規模 ML 模型訓練。

下表列出可用來建立已連接 GPU 的 VM 的方法:

部署選項

部署作業指南

建立 VM 以便提供服務和單一節點工作負載

建立 A3 Edge 或 A3 High VM

建立代管執行個體群組 (MIG)

這個選項會使用 動態工作負載排程器 (DWS)

建立含有 GPU VM 的 MIG

大量建立 VM

大量建立一組 GPU VM

建立單一 VM

建立單一 GPU VM

建立虛擬工作站

建立搭載 GPU 加速運算技術的虛擬工作站

Cloud Run

您可以為 Cloud Run 執行個體設定 GPU。GPU 非常適合在 Cloud Run 上使用大型語言模型執行 AI 推論工作負載。

如要在 Cloud Run 上使用 GPU 執行 AI 工作負載,請參閱下列資源: