このページの一部またはすべての情報は、S3NS の Cloud de Confiance に適用されない場合があります。詳細については、Google Cloud との違いをご確認ください。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

費用を最適化し、高可用性の GPU プロビジョニング戦略を使用して GKE で LLM をサービングする

Autopilot Standard

このガイドでは、GKE で LLM サービングワークロードの費用を最適化する方法について説明します。このチュートリアルでは、推論の費用対効果を向上させるために、Flex Start VM、Spot VM、ComputeClass を組み合わせて使用します。

このガイドでは、デプロイ可能な LLM の例として Mixtral 8x7b を使用します。

このガイドは、LLM のサービングに Kubernetes コンテナオーケストレーションの機能を使用することに関心のある機械学習（ML）エンジニア、プラットフォーム管理者、オペレーター、データおよび AI スペシャリストを対象としています。 Cloud de Confiance by S3NS のコンテンツで使用されている一般的なロールとタスクの例の詳細については、GKE ユーザーの一般的なロールとタスクをご覧ください。

Flex Start の料金

Flex Start は、リソースを必要に応じて動的にプロビジョニングする必要があり、最長 7 日間の短期間での利用が想定され、複雑な割り当て管理が必要なく、コスト効率よく使いたいワークロードにおすすめです。Flex Start は Dynamic Workload Scheduler によって動いており、料金も Dynamic Workload Scheduler に基づいたものになります。

vCPU、GPU、TPU が最大 53% 割引になります。
使った分だけ支払う方式です。

背景

このセクションでは、AI / ML ワークロードの要件に基づいて、GPU アクセラレータなどのコンピューティングリソースを取得するための手法について説明します。これらの手法は、GKE では「アクセラレータの入手可能性戦略」と呼ばれます。

GPU

画像処理装置（GPU）を使用すると、ML やデータ処理などの特定のワークロードを高速化できます。GKE には、ML タスクとデータ処理タスクのパフォーマンスを最適化するため、強力な GPU を搭載したノードが用意されています。GKE には、NVIDIA H100、A100、L4 GPU を搭載したマシンタイプをはじめとして、ノード構成用のさまざまなマシンタイプオプションが用意されています。

詳細については、GKE での GPU についてをご覧ください。

Flex Start

Flex Start は、Dynamic Workload Scheduler を活用した GPU 使用オプションです。GKE で GPU リクエストを保持し、容量が使用可能になると Flex Start VM を自動的にプロビジョニングします。最大 7 日間という限られた期間に GPU 容量が必要で、開始日が固定されていないワークロードには、Flex Start の使用を検討してください。詳細については、Flex Start をご覧ください。

Spot VM

ワークロードが頻繁なノード中断を許容できるのであれば、GPU を Spot VM で使用することもできます。Spot VM または Flex Start を使用すると、GPU の実行コストを削減できます。Spot VM と Flex Start を組み合わせて使用すると、Spot VM の容量を使用できない場合のフォールバックオプションが提供されます。

詳細については、GPU ノードプールで Spot VM を使用するをご覧ください。

ComputeClasses

GPU は、ComputeClass を使用してリクエストできます。ComputeClass を使用すると、ノードスケーリングの決定時に GKE が優先順位を付けるノード構成の階層を定義して、選択したハードウェアでワークロードが実行されるようにできます。詳細については、カスタム ComputeClass についてをご覧ください。

始める前に

In the Cloud de Confiance console, on the project selector page, select or create a Cloud de Confiance project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Cloud de Confiance project.

バージョン 1.32.2-gke.1652000 以降を実行する GKE Autopilot クラスタまたは GKE Standard クラスタがあることを確認します。クラスタでノードの自動プロビジョニングを有効にして GPU の上限を構成する必要があります。
Hugging Face アカウントを作成します（まだ作成していない場合）。
プロジェクトに NVIDIA L4 GPU のプリエンプティブル割り当てが十分にあることを確認します。詳細については、プリエンプティブル割り当てをご覧ください。

モデルへのアクセス権を取得する

Hugging Face トークンをまだ生成していない場合は、新しいトークンを生成します。

[Your Profile] > [Settings] > [Access Tokens] の順にクリックします。
[New Token] を選択します。
任意の名前と、少なくとも Read ロールを指定します。
[Generate a token] を選択します。

ComputeClass を作成する

このセクションでは、カスタム ComputeClass を作成します。ComputeClass は、ワークロードで使用される複数のコンピューティングリソースのタイプと関係を定義します。

Cloud de Confiance コンソールで（Cloud Shell をアクティブにする）をクリックして、Cloud de Confiance コンソールで Cloud Shell セッションを起動します。 Cloud de Confiance コンソールの下部ペインにセッションが開きます。

dws-flex-start.yaml マニフェストファイルを作成します。

apiVersion: cloud.google.com/v1
kind: ComputeClass
metadata:
  name: dws-model-inference-class
spec:
  priorities:
    - machineType: g2-standard-24
      spot: true
    - machineType: g2-standard-24
      flexStart:
        enabled: true
        nodeRecycling:
          leadTimeSeconds: 3600
  nodePoolAutoCreation:
    enabled: true

dws-flex-start.yaml マニフェストを適用します。
```
kubectl apply -f dws-flex-start.yaml
```

GKE は、L4 アクセラレータを使用して g2-standard-24 マシンをデプロイします。GKE は、ComputeClasses を使用して、まず Spot VM を優先し、次に Flex Start VM を優先します。

LLM ワークロードをデプロイする

次のコマンドを使用して、Hugging Face トークンを含む Kubernetes Secret を作成します。
```
kubectl create secret generic model-inference-secret \
    --from-literal=HUGGING_FACE_TOKEN=HUGGING_FACE_TOKEN \
    --dry-run=client -o yaml | kubectl apply -f -
```
HUGGING_FACE_TOKEN は、Hugging Face アクセストークンに置き換えます。

mixtral-deployment.yaml という名前のファイルを作成します。

apiVersion: apps/v1
kind: Deployment
metadata:
  name: inference-mixtral-ccc
spec:
  replicas: 1
  selector:
    matchLabels:
      app: llm
  template:
    metadata:
      labels:
        app: llm
    spec:
      nodeSelector:
        cloud.google.com/compute-class: dws-model-inference-class
      containers:
      - name: llm
        image: us-docker.pkg.dev/deeplearning-platform-release/gcr.io/huggingface-text-generation-inference-cu124.2-3.ubuntu2204.py311
        resources:
          requests:
            cpu: "5"
            memory: "40Gi"
            nvidia.com/gpu: "2"
          limits:
            cpu: "5"
            memory: "40Gi"
            nvidia.com/gpu: "2"
        env:
        - name: MODEL_ID
          value: mistralai/Mixtral-8x7B-Instruct-v0.1
        - name: NUM_SHARD
          value: "2"
        - name: PORT
          value: "8080"
        - name: QUANTIZE
          value: bitsandbytes-nf4
        - name: HUGGING_FACE_HUB_TOKEN
          valueFrom:
            secretKeyRef:
              name: model-inference-secret
              key: HUGGING_FACE_TOKEN
        volumeMounts:
          - mountPath: /dev/shm
            name: dshm
          - mountPath: /tmp
            name: ephemeral-volume
      volumes:
        - name: dshm
          emptyDir:
              medium: Memory
        - name: ephemeral-volume
          ephemeral:
            volumeClaimTemplate:
              metadata:
                labels:
                  type: ephemeral
              spec:
                accessModes: ["ReadWriteOnce"]
                storageClassName: "premium-rwo"
                resources:
                  requests:
                    storage: 100Gi

このマニフェストでは、mountPath フィールドは /tmp に設定されています。これは、TGI デフォルトイメージ内に設定されているデフォルトの /data パスではなく、テキスト生成推論（TGI）用の Deep Learning Containers（DLC）の HF_HOME 環境変数が設定されているパスです。ダウンロードされたモデルはこのディレクトリに保存されます。

モデルをデプロイします。
```
kubectl apply -f  mixtral-deployment.yaml
```
GKE は、デプロイする新しい Pod をスケジュールします。これにより、ノードプールオートスケーラーがトリガーされ、2 番目のノードが追加されてからモデルの 2 番目のレプリカがデプロイされます。
モデルのステータスを確認します。
```
watch kubectl get deploy inference-mixtral-ccc
```
モデルが正常にデプロイされると、出力は次のようになります。
```
NAME                   READY   UP-TO-DATE   AVAILABLE   AGE
inference-mixtral-ccc  1/1     1            1           10m
```
監視を終了するには、CTRL + C を押します。
コンテナがダウンロードされ、モデルのサービングが開始されるまで待ちます。
```
watch "kubectl logs $(kubectl get pods -l app=llm -o custom-columns=:metadata.name --no-headers) | tail"
```
監視を終了するには、CTRL + C を押します。

注: ダウンロードログの代わりに HTTP 403 Forbidden ステータスコードが表示される場合は、Hugging Face の Mixtral 8x7b リポジトリに移動して、同意契約に署名する必要があります。

GKE がプロビジョニングしたノードプールを表示します。

kubectl get nodes -L cloud.google.com/gke-nodepool

出力は次のようになります。

  NAME                                                  STATUS   ROLES    AGE   VERSION               GKE-NODEPOOL
  gke-flex-na-nap-g2-standard--0723b782-fg7v   Ready    <none>   10m   v1.32.3-gke.1152000   nap-g2-standard-24-spot-gpu2-1gbdlbxz
  gke-flex-nap-zo-default-pool-09f6fe53-fzm8   Ready    <none>   32m   v1.32.3-gke.1152000   default-pool
  gke-flex-nap-zo-default-pool-09f6fe53-lv2v   Ready    <none>   32m   v1.32.3-gke.1152000   default-pool
  gke-flex-nap-zo-default-pool-09f6fe53-pq6m   Ready    <none>   32m   v1.32.3-gke.1152000   default-pool

作成されたノードプールの名前は、マシンのタイプを示します。この場合、GKE は Spot VM をプロビジョニングしました。

モデルを公開します。
```
kubectl expose deployment/inference-mixtral-ccc --port 8080 --name=llm-service
```
成功: Flex Start VM、Spot VM、ComputeClass を組み合わせて、GPU のプロビジョニングとコストを最適化し、LLM を正常にサービングできました。これで、モデルを操作できるようになりました。

`curl` を使用してモデルを操作する

このセクションでは、基本的な推論テストを実行して、デプロイされたモデルを確認する方法について説明します。

モデルへのポート転送を設定します。

kubectl port-forward service/llm-service 8080:8080

出力は次のようになります。

Forwarding from 127.0.0.1:8080 -> 8080

新しいターミナルセッションで、curl を使用してモデルとチャットします。

curl http://localhost:8080/v1/completions \
-X POST \
-H "Content-Type: application/json" \
-d '{
    "model": "mixtral-8x7b-instruct-gptq",
    "prompt": "<s>[INST]Who was the first president of the United States?[/INST]",
    "max_tokens": 40}'

出力は次のようになります。

George Washington was a Founding Father and the first president of the United States, serving from 1789 to 1797.

クリーンアップ

このページで使用したリソースについて、 Cloud de Confiance by S3NS アカウントに課金されないようにするには、リソースを含むプロジェクトを削除するか、プロジェクトを維持して個々のリソースを削除します。

プロジェクトを削除する

注意: プロジェクトを削除すると、次のような影響があります。

プロジェクト内のすべてのものが削除されます。既存のプロジェクトを使用してこのドキュメントのタスクを行った場合、そのプロジェクトを削除すると、プロジェクト内で行った他の作業もすべて削除されます。
カスタムプロジェクト ID が失われます。このプロジェクトを作成したときに、将来使用するカスタムプロジェクト ID を作成した可能性があります。そのプロジェクト ID を使用した URL（例: appspot.com）を保持するには、プロジェクト全体ではなく、プロジェクト内の選択したリソースだけを削除します。

Cloud de Confiance コンソールで [リソースの管理] ページに移動します。
[リソースの管理] に移動
プロジェクトリストで、削除するプロジェクトを選択し、[削除] をクリックします。
ダイアログでプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。

個々のリソースを削除する

このガイドで作成した Kubernetes リソースを削除します。

kubectl delete deployment inference-mixtral-ccc
kubectl delete service llm-service
kubectl delete computeclass dws-model-inference-class
kubectl delete secret model-inference-secret

クラスタを削除します。

gcloud container clusters delete CLUSTER_NAME

次のステップ

Flex Start で小規模なワークロードをトレーニングする方法を確認する。
GKE での GPU の詳細を確認する。

費用を最適化し、高可用性の GPU プロビジョニング戦略を使用して GKE で LLM をサービングする

Flex Start の料金

背景

GPU

Flex Start

Spot VM

ComputeClasses

始める前に

モデルへのアクセス権を取得する

ComputeClass を作成する

LLM ワークロードをデプロイする

curl を使用してモデルを操作する

クリーンアップ

プロジェクトを削除する

個々のリソースを削除する

次のステップ

`curl` を使用してモデルを操作する