Sebagian atau seluruh informasi di halaman ini mungkin tidak berlaku untuk Cloud de Confiance dari S3NS. Lihat Perbedaan dengan Google Cloud untuk mengetahui detail selengkapnya.

Halaman ini diterjemahkan oleh Cloud Translation API.

Mengalokasikan perangkat secara dinamis ke workload dengan DRA

Standard

Halaman ini menjelaskan cara men-deploy workload alokasi resource dinamis (DRA) di cluster Google Kubernetes Engine Anda. Anda membuat ResourceClaimTemplate untuk meminta hardware dengan DRA, lalu men-deploy workload dasar untuk mendemonstrasikan cara Kubernetes mengalokasikan hardware secara fleksibel di Pod Anda.

Halaman ini ditujukan untuk Operator aplikasi dan Data engineer yang menjalankan workload seperti AI/ML atau komputasi berperforma tinggi (HPC).

Tentang alokasi resource dinamis

DRA adalah fitur Kubernetes bawaan yang memungkinkan Anda secara fleksibel meminta, mengalokasikan, dan membagikan hardware di cluster Anda di antara Pod dan container. Untuk mengetahui informasi selengkapnya, lihat Tentang alokasi resource dinamis.

Tentang meminta perangkat dengan DRA

Saat Anda menyiapkan infrastruktur GKE untuk DRA, driver DRA di node Anda akan membuat objek DeviceClass di cluster. DeviceClass menentukan kategori perangkat, seperti GPU, yang tersedia untuk diminta oleh workload. Administrator platform dapat secara opsional men-deploy DeviceClass tambahan yang membatasi perangkat yang dapat Anda minta dalam workload tertentu.

Untuk meminta perangkat dalam DeviceClass, Anda membuat salah satu objek berikut:

ResourceClaim: ResourceClaim memungkinkan Pod atau pengguna meminta resource hardware dengan memfilter parameter tertentu dalam DeviceClass.
ResourceClaimTemplate: ResourceClaimTemplate menentukan template yang dapat digunakan Pod untuk membuat ResourceClaim per-Pod baru secara otomatis.

Untuk mengetahui informasi selengkapnya tentang objek ResourceClaim dan ResourceClaimTemplate, lihat Kapan menggunakan ResourceClaim dan ResourceClaimTemplate.

Contoh di halaman ini menggunakan ResourceClaimTemplate dasar untuk meminta konfigurasi perangkat yang ditentukan. Untuk mengetahui informasi yang lebih mendetail, lihat dokumentasi Kubernetes ResourceClaimTemplateSpec.

Batasan

Penyediaan otomatis node tidak didukung.
Cluster Autopilot tidak mendukung DRA.
Anda tidak dapat menggunakan fitur berbagi GPU berikut:
- GPU berbagi waktu
- GPU multi-instance
- Layanan Multi-proses (MPS)

Persyaratan

Untuk menggunakan DRA, versi GKE Anda harus versi 1.32.1-gke.1489001 atau yang lebih baru.

Anda juga harus memahami persyaratan dan batasan berikut:

Sebelum memulai

Sebelum memulai, pastikan Anda telah melakukan tugas berikut:

Aktifkan Google Kubernetes Engine API.

Aktifkan Google Kubernetes Engine API

Jika ingin menggunakan Google Cloud CLI untuk tugas ini, instal lalu lakukan inisialisasi gcloud CLI. Jika sebelumnya Anda telah menginstal gcloud CLI, dapatkan versi terbaru dengan menjalankan perintah gcloud components update. Versi gcloud CLI yang lebih lama mungkin tidak mendukung menjalankan perintah dalam dokumen ini.
Catatan: Untuk penginstalan gcloud CLI yang ada, pastikan untuk menyetel properti compute/region. Jika Anda terutama menggunakan cluster zona, tetapkan compute/zone. Dengan menyetel lokasi default, Anda dapat menghindari error di gcloud CLI yang seperti ini: One of [--zone, --region] must be supplied: Please specify location. Anda mungkin perlu menentukan lokasi dalam perintah tertentu jika lokasi cluster Anda berbeda dengan lokasi default yang Anda tetapkan.

Pastikan cluster GKE Anda dikonfigurasi untuk workload DRA.

Menggunakan DRA untuk men-deploy workload

Untuk meminta alokasi perangkat per-Pod, Anda harus membuat ResourceClaimTemplate terlebih dahulu yang menghasilkan ResourceClaim untuk mendeskripsikan permintaan Anda untuk GPU atau TPU, yang digunakan Kubernetes sebagai template untuk membuat objek ResourceClaim baru untuk setiap Pod dalam workload. Saat Anda menentukan ResourceClaimTemplate dalam workload, Kubernetes mengalokasikan resource yang diminta dan menjadwalkan Pod pada node yang sesuai.

GPU

Simpan manifes berikut sebagai claim-template.yaml:

apiVersion: resource.k8s.io/v1beta2
kind: ResourceClaimTemplate
metadata:
  name: gpu-claim-template
spec:
  spec:
    devices:
      requests:
      - name: single-gpu
        deviceClassName: gpu.nvidia.com
        allocationMode: ExactCount
        count: 1

Buat ResourceClaimTemplate:
```
kubectl create -f claim-template.yaml
```

Untuk membuat workload yang mereferensikan ResourceClaimTemplate, simpan manifes berikut sebagai dra-gpu-example.yaml:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: dra-gpu-example
spec:
  replicas: 1
  selector:
    matchLabels:
      app: dra-gpu-example
  template:
    metadata:
      labels:
        app: dra-gpu-example
    spec:
      containers:
      - name: ctr
        image: ubuntu:22.04
        command: ["bash", "-c"]
        args: ["while [ 1 ]; do date; echo $(nvidia-smi -L || echo Waiting...); sleep 60; done"]
        resources:
          claims:
          - name: single-gpu
      resourceClaims:
      - name: single-gpu
        resourceClaimTemplateName: gpu-claim-template
      tolerations:
      - key: "nvidia.com/gpu"
        operator: "Exists"
        effect: "NoSchedule"

Men-deploy workload:
```
kubectl create -f dra-gpu-example.yaml
```

TPU

Simpan manifes berikut sebagai claim-template.yaml:

apiVersion: resource.k8s.io/v1beta2
kind: ResourceClaimTemplate
metadata:
  name: tpu-claim-template
spec:
  spec:
    devices:
      requests:
      - name: all-tpus
        deviceClassName: tpu.google.com
        allocationMode: All

ResourceClaimTemplate ini meminta GKE untuk mengalokasikan seluruh node pool TPU ke setiap ResourceClaim.

Buat ResourceClaimTemplate:
```
kubectl create -f claim-template.yaml
```

Untuk membuat workload yang mereferensikan ResourceClaimTemplate, simpan manifes berikut sebagai dra-tpu-example.yaml:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: dra-tpu-example
spec:
  replicas: 1
  selector:
    matchLabels:
      app: dra-tpu-example
  template:
    metadata:
      labels:
        app: dra-tpu-example
    spec:
      containers:
      - name: ctr
        image: ubuntu:22.04
        command:
          - /bin/sh
          - -c
          - |
            echo "Environment Variables:"
            env
            echo "Sleeping indefinitely..."
            sleep infinity
        resources:
          claims:
          - name: all-tpus
      resourceClaims:
      - name: all-tpus
        resourceClaimTemplateName: tpu-claim-template
      tolerations:
      - key: "google.com/tpu"
        operator: "Exists"
        effect: "NoSchedule"

Men-deploy workload:
```
kubectl create -f dra-tpu-example.yaml
```

Memverifikasi alokasi hardware

Anda dapat memverifikasi bahwa workload Anda telah dialokasikan hardware dengan memeriksa ResourceClaim atau dengan melihat log untuk Pod Anda.