このページの一部またはすべての情報は、S3NS の Cloud de Confiance に適用されない場合があります。詳細については、Google Cloud との違いをご確認ください。

DRA ワークロード用に GKE インフラストラクチャを準備する

Standard

このドキュメントでは、Google Kubernetes Engine（GKE）のインフラストラクチャで動的リソース割り当て（DRA）を使用できるようにするための設定方法について説明します。設定手順には、GPU や TPU を使用するノードプールを作成し、クラスタに DRA ドライバをインストールすることが含まれます。このドキュメントは、特殊なハードウェアデバイスを使用してインフラストラクチャを構築する際の複雑さやオーバーヘッドを軽減したいプラットフォーム管理者向けです。

制限事項

ノードの自動プロビジョニングはサポートされていません。
Autopilot クラスタは DRA をサポートしていません。
DRA では、GPU ドライバの自動インストールはサポートされていません。
次の GPU 共有機能は使用できません。
- 時間共有 GPU
- マルチインスタンス GPU
- マルチプロセス Service（MPS）
TPU を使用する場合は、DRA の API で v1beta1 と v1beta2 のバージョンを有効にする必要があります。この制限は GPU には適用されず、GPU は v1 API バージョンを使用できます。

要件

DRA を使用するには、GKE クラスタのバージョンが 1.34 以降である必要があります。

また、使用するハードウェアのタイプに応じて、次の要件と制限事項にも注意してください。

始める前に

作業を始める前に、次のタスクが完了していることを確認してください。

Google Kubernetes Engine API を有効にする。

Google Kubernetes Engine API の有効化

このタスクに Google Cloud CLI を使用する場合は、gcloud CLI をインストールして初期化する。gcloud CLI をインストール済みの場合は、gcloud components update コマンドを実行して最新のバージョンを取得します。以前のバージョンの gcloud CLI では、このドキュメントのコマンドを実行できない場合があります。
注: gcloud CLI がすでにインストールされている場合には、必ず compute/region プロパティを設定してください。主にゾーンクラスタを使用する場合は、代わりに compute/zone を設定します。デフォルトのロケーションを設定することで、gcloud CLI のエラー（One of [--zone, --region] must be supplied: Please specify location など）を防止できます。クラスタのロケーションが設定したデフォルトと異なる場合は、特定のコマンドでロケーションの指定が必要になることがあります。

GKE Standard クラスタを、バージョン 1.34 以降で用意します。リージョンクラスタを作成することもできます。

Cloud Shell を使用していない場合は、Helm CLI をインストールします。

curl -fsSL -o get_helm.sh https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3
chmod 700 get_helm.sh
./get_helm.sh

TPU で DRA を使用するには、DRA API の v1beta1 と v1beta2 のバージョンを有効にします。

gcloud container clusters update CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION \
    --enable-kubernetes-unstable-apis="resource.k8s.io/v1beta1/deviceclasses,resource.k8s.io/v1beta1/resourceclaims,resource.k8s.io/v1beta1/resourceclaimtemplates,resource.k8s.io/v1beta1/resourceslices,resource.k8s.io/v1beta2/deviceclasses,resource.k8s.io/v1beta2/resourceclaims,resource.k8s.io/v1beta2/resourceclaimtemplates,resource.k8s.io/v1beta2/resourceslices"

GPU または TPU を使用して GKE ノードプールを作成する

GKE では、GPU と TPU の両方で DRA を使用できます。マシンタイプ、アクセラレータのタイプ、ノード数、ノードのオペレーティングシステム、ノードのロケーションなどのノードプールの設定は、要件に応じて決定してください。DRA をサポートするノードプールを作成するには、次のいずれかのオプションを選択します。

GPU

GPU に DRA を使用するには、ノードプールの作成時に次の操作を行う必要があります。

ノードプールの GPU を構成するときに、--accelerator フラグで gpu-driver-version=disabled オプションを指定して、GPU ドライバの自動インストールを無効にします。
gke-no-default-nvidia-gpu-device-plugin=true ノードラベルを追加して、GPU デバイスプラグインを無効にします。
nvidia.com/gpu.present=true ノードラベルを追加して、DRA ドライバ DaemonSet がそのノード上で実行できるようにします。

DRA 用の GPU ノードプールを作成する手順は次のとおりです。

必要なハードウェアを使用してノードプールを作成します。次の例では、2 つの L4 GPU を搭載する Container-Optimized OS に g2-standard-24 インスタンスが配置されたノードプールを作成します。
```
gcloud container node-pools create NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION \
    --machine-type "g2-standard-24" \
    --accelerator "type=nvidia-l4,count=2,gpu-driver-version=disabled" \
    --num-nodes "1" \
    --node-labels=gke-no-default-nvidia-gpu-device-plugin=true,nvidia.com/gpu.present=true
```
次のように置き換えます。
- NODEPOOL_NAME: ノードプールの名前
- CLUSTER_NAME: クラスタの名前。
- CONTROL_PLANE_LOCATION: クラスタコントロールプレーンのリージョンまたはゾーン（例: us-central1、us-central1-a）。
Container-Optimized OS ノードまたは Ubuntu ノードにドライバを手動でインストールします。詳細な手順については、NVIDIA GPU ドライバを手動でインストールするをご覧ください。

TPU

TPU で DRA を使用するには、gke-no-default-tpu-device-plugin=true ノードラベルを追加して TPU デバイスプラグインを無効にする必要があります。次の例では、DRA をサポートする TPU Trillium ノードプールを作成します。

gcloud container node-pools create NODEPOOL_NAME \
    --cluster CLUSTER_NAME --num-nodes 1 \
    --location=CONTROL_PLANE_LOCATION \
    --node-labels "gke-no-default-tpu-device-plugin=true,gke-no-default-tpu-dra-plugin=true" \
    --machine-type=ct6e-standard-8t

次のように置き換えます。

NODEPOOL_NAME: ノードプールの名前
CLUSTER_NAME: クラスタの名前。
CONTROL_PLANE_LOCATION: クラスタコントロールプレーンのリージョンまたはゾーン（例: us-central1、us-central1-a）。

DRA ドライバをインストールする

GPU

NVIDIA DRA ドライバを含む Helm チャートを pull して更新します。

helm repo add nvidia https://helm.ngc.nvidia.com/nvidia \
    && helm repo update

バージョン 25.3.2 の NVIDIA DRA ドライバをインストールします。

helm install nvidia-dra-driver-gpu nvidia/nvidia-dra-driver-gpu \
    --version="25.3.2" --create-namespace --namespace=nvidia-dra-driver-gpu \
    --set nvidiaDriverRoot="/home/kubernetes/bin/nvidia/" \
    --set gpuResourcesEnabledOverride=true \
    --set resources.computeDomains.enabled=false \
    --set kubeletPlugin.priorityClassName="" \
    --set kubeletPlugin.tolerations[0].key=nvidia.com/gpu \
    --set kubeletPlugin.tolerations[0].operator=Exists \
    --set kubeletPlugin.tolerations[0].effect=NoSchedule

Ubuntu ノードの場合は、nvidiaDriverRoot="/opt/nvidia" ディレクトリパスを使用します。

TPU

ai-on-gke リポジトリのクローンを作成して、GPU と TPU 用の DRA ドライバを含む Helm チャートにアクセスします。
```
git clone https://github.com/ai-on-gke/common-infra.git
```
そのチャートを含むディレクトリに移動します。
```
cd common-infra/common/charts
```
TPU DRA ドライバをインストールします。
```
./tpu-dra-driver/install-tpu-dra-driver.sh
```

インフラストラクチャが DRA に対応していることを確認する

DRA ドライバ Pod が実行されていることを確認するには、次のいずれかのオプションを選択します。

GPU

kubectl get pods -n nvidia-dra-driver-gpu

出力は次のようになります。

NAME                                         READY   STATUS    RESTARTS   AGE
nvidia-dra-driver-gpu-kubelet-plugin-52cdm   1/1     Running   0          46s

TPU

kubectl get pods -n tpu-dra-driver