Diffuser des LLM sur GKE avec une stratégie de provisionnement de GPU optimisée en termes de coûts et haute disponibilité


Ce guide vous explique comment optimiser les coûts des charges de travail de diffusion de LLM sur GKE. Ce tutoriel utilise une combinaison de profils de classe de calcul personnalisés, de VM Spot et de démarrage flexible pour une inférence économique.

Ce guide utilise Mixtral 8x7b comme exemple de LLM que vous pouvez déployer.

Ce guide est destiné aux ingénieurs en machine learning (ML), aux administrateurs et opérateurs de plate-forme, ainsi qu'aux spécialistes des données et de l'IA qui souhaitent utiliser les fonctionnalités d'orchestration de conteneurs Kubernetes pour diffuser des LLM. Pour en savoir plus sur les rôles courants et les exemples de tâches que nous citons dans le contenu Trusted Cloud by S3NS , consultez Rôles utilisateur et tâches courantes de GKE Enterprise.

Tarification Flex-start

Le démarrage flexible est recommandé si votre charge de travail nécessite des ressources provisionnées de manière dynamique selon les besoins, pendant sept jours maximum avec des réservations à court terme, sans gestion complexe des quotas et avec un accès économique. Le démarrage flexible est optimisé par le planificateur de charges de travail dynamique et facturé selon les tarifs du planificateur de charges de travail dynamique :

  • Remise (jusqu'à 53 %) sur les vCPU, les GPU et les TPU.
  • Vous payez à l'usage.

Arrière-plan

Cette section décrit les techniques disponibles que vous pouvez utiliser pour obtenir des ressources de calcul, y compris des accélérateurs GPU, en fonction des exigences de vos charges de travail d'IA/ML. Dans GKE, ces techniques sont appelées stratégies d'obtention d'accélérateurs.

GPU

Les processeurs graphiques (GPU) vous permettent d'accélérer des charges de travail spécifiques telles que le machine learning et le traitement des données. GKE propose des nœuds équipés de ces puissants GPU pour optimiser les performances des tâches de machine learning et de traitement des données. GKE fournit toute une gamme d'options de types de machines pour la configuration des nœuds, y compris les types de machines avec des GPU NVIDIA H100, A100 et L4.

Pour en savoir plus, consultez À propos des GPU dans GKE.

Mode de provisionnement Démarrage flexible

Le mode de provisionnement à démarrage flexible, optimisé par le programmateur de charge de travail dynamique, est un type de consommation de GPU dans lequel GKE conserve votre demande de GPU et provisionne automatiquement les ressources lorsque la capacité devient disponible. Envisagez d'utiliser le démarrage flexible pour les charges de travail qui ont besoin de capacité de GPU pendant une durée limitée (jusqu'à sept jours) et qui n'ont pas de date de début fixe. Pour en savoir plus, consultez flex-start.

VM Spot

Vous pouvez utiliser des GPU avec des VM Spot si vos charges de travail peuvent tolérer les perturbations fréquentes des nœuds. L'utilisation de VM Spot ou de flex-start réduit le coût d'exécution des GPU. L'utilisation de VM Spot combinée au démarrage flexible offre une option de secours lorsque la capacité des VM Spot n'est pas disponible.

Pour en savoir plus, consultez Utiliser des VM Spot avec des pools de nœuds GPU.

Classes de calcul personnalisées

Vous pouvez demander des GPU à l'aide de classes de calcul personnalisées. Les classes de calcul personnalisées vous permettent de définir une hiérarchie de configurations de nœuds que GKE doit privilégier lors des décisions de scaling de nœuds. Ainsi, les charges de travail s'exécutent sur le matériel de votre choix. Pour en savoir plus, consultez À propos des classes de calcul personnalisées.

Avant de commencer

  • In the Trusted Cloud console, on the project selector page, select or create a Trusted Cloud project.

    Go to project selector

  • Make sure that billing is enabled for your Trusted Cloud project.

  • Make sure that you have the following role or roles on the project:

    Check for the roles

    1. In the Trusted Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Trusted Cloud console, go to the IAM page.

      Accéder à IAM
    2. Sélectionnez le projet.
    3. Cliquez sur Accorder l'accès.
    4. Dans le champ Nouveaux comptes principaux, saisissez votre identifiant utilisateur. Il s'agit généralement de l'identifiant d'un utilisateur dans un pool d'identités de personnel. Pour en savoir plus, consultez la section Représenter les utilisateurs de pools de personnel dans les stratégies IAM ou contactez votre administrateur.

    5. Dans la liste Sélectionner un rôle, sélectionnez un rôle.
    6. Pour attribuer des rôles supplémentaires, cliquez sur Ajouter un autre rôle et ajoutez chaque rôle supplémentaire.
    7. Cliquez sur Enregistrer.

Accéder au modèle

Si vous n'en avez pas déjà un, générez un nouveau jeton Hugging Face :

  1. Cliquez sur Your Profile > Settings > Access Tokens (Votre profil > Paramètres > Jetons d'accès).
  2. Sélectionnez New Token (Nouveau jeton).
  3. Spécifiez le nom de votre choix et un rôle d'au moins Read.
  4. Sélectionnez Générer un jeton.

Créer un profil de classe de calcul personnalisé

Dans cette section, vous allez créer un profil de classe de calcul personnalisé. Les profils de classe de calcul personnalisés définissent les types et les relations entre les différentes ressources de calcul utilisées par votre charge de travail.

  1. Dans la console Trusted Cloud , lancez une session Cloud Shell en cliquant sur Icône d'activation Cloud Shell Activer Cloud Shell dans la consoleTrusted Cloud . Une session s'ouvre dans le volet inférieur de la console Trusted Cloud .
  2. Créez un fichier manifeste dws-flex-start.yaml :

    apiVersion: cloud.google.com/v1
    kind: ComputeClass
    metadata:
      name: dws-model-inference-class
    spec:
      priorities:
        - machineType: g2-standard-24
          spot: true
        - machineType: g2-standard-24
          flexStart:
            enabled: true
            nodeRecycling:
              leadTimeSeconds: 3600
      nodePoolAutoCreation:
        enabled: true
    
  3. Appliquez le fichier manifeste dws-flex-start.yaml :

    kubectl apply -f dws-flex-start.yaml
    

GKE déploie des machines g2-standard-24 avec des accélérateurs L4. GKE utilise des classes de calcul pour donner la priorité aux VM Spot, puis aux VM à démarrage flexible.

Déployer la charge de travail LLM

  1. Créez un secret Kubernetes contenant le jeton Hugging Face à l'aide de la commande suivante :

    kubectl create secret generic model-inference-secret \
        --from-literal=HUGGING_FACE_TOKEN=HUGGING_FACE_TOKEN \
        --dry-run=client -o yaml | kubectl apply -f -
    

    Remplacez HUGGING_FACE_TOKEN par votre jeton d'accès Hugging Face.

  2. Créez un fichier nommé mixtral-deployment.yaml :

    apiVersion: apps/v1
    kind: Deployment
    metadata:
      name: inference-mixtral-ccc
    spec:
      nodeSelector:
        cloud.google.com/compute-class: dws-model-inference-class
      replicas: 1
      selector:
        matchLabels:
          app: llm
      template:
        metadata:
          labels:
            app: llm
        spec:
          containers:
          - name: llm
            image: us-docker.pkg.dev/deeplearning-platform-release/gcr.io/huggingface-text-generation-inference-cu124.2-3.ubuntu2204.py311
            resources:
              requests:
                cpu: "5"
                memory: "40Gi"
                nvidia.com/gpu: "2"
              limits:
                cpu: "5"
                memory: "40Gi"
                nvidia.com/gpu: "2"
            env:
            - name: MODEL_ID
              value: mistralai/Mixtral-8x7B-Instruct-v0.1
            - name: NUM_SHARD
              value: "2"
            - name: PORT
              value: "8080"
            - name: QUANTIZE
              value: bitsandbytes-nf4
            - name: HUGGING_FACE_HUB_TOKEN
              valueFrom:
                secretKeyRef:
                  name: model-inference-secret
                  key: HUGGING_FACE_TOKEN
            volumeMounts:
              - mountPath: /dev/shm
                name: dshm
              - mountPath: /tmp
                name: ephemeral-volume
          volumes:
            - name: dshm
              emptyDir:
                  medium: Memory
            - name: ephemeral-volume
              ephemeral:
                volumeClaimTemplate:
                  metadata:
                    labels:
                      type: ephemeral
                  spec:
                    accessModes: ["ReadWriteOnce"]
                    storageClassName: "premium-rwo"
                    resources:
                      requests:
                        storage: 100Gi
    

    Dans ce fichier manifeste, le champ mountPath est défini sur /tmp, car il s'agit du chemin d'accès à la variable d'environnement HF_HOME dans le conteneur de deep learning (DLC) pour Text Generation Inference (TGI), au lieu du chemin d'accès par défaut /data défini dans l'image TGI par défaut. Le modèle téléchargé sera stocké dans ce répertoire.

  3. Déployez le modèle :

    kubectl apply -f  mixtral-deployment.yaml
    

    GKE planifie le déploiement d'un nouveau pod, ce qui déclenche l'autoscaler du pool de nœuds pour ajouter un deuxième nœud avant de déployer la deuxième réplique du modèle.

  4. Vérifiez l'état du modèle :

    watch kubectl get deploy inference-mixtral-ccc
    

    Si le modèle a été déployé avec succès, le résultat est semblable à ce qui suit :

    NAME                   READY   UP-TO-DATE   AVAILABLE   AGE
    inference-mixtral-ccc  1/1     1            1           10m
    

    Pour quitter la lecture, appuyez sur CTRL + C.

  5. Affichez les pools de nœuds provisionnés par GKE :

    kubectl get nodes -L cloud.google.com/gke-nodepool
    

    Le résultat ressemble à ce qui suit :

      NAME                                                  STATUS   ROLES    AGE   VERSION               GKE-NODEPOOL
      gke-flex-na-nap-g2-standard--0723b782-fg7v   Ready    <none>   10m   v1.32.3-gke.1152000   nap-g2-standard-24-spot-gpu2-1gbdlbxz
      gke-flex-nap-zo-default-pool-09f6fe53-fzm8   Ready    <none>   32m   v1.32.3-gke.1152000   default-pool
      gke-flex-nap-zo-default-pool-09f6fe53-lv2v   Ready    <none>   32m   v1.32.3-gke.1152000   default-pool
      gke-flex-nap-zo-default-pool-09f6fe53-pq6m   Ready    <none>   32m   v1.32.3-gke.1152000   default-pool
    

    Le nom du pool de nœuds créé indique le type de machine. Dans ce cas, GKE a provisionné des Spot VM.

Interagir avec le modèle à l'aide de curl

Cette section explique comment effectuer un test d'inférence de base pour vérifier le modèle déployé.

  1. Configurez le transfert de port vers le modèle :

    kubectl port-forward service/llm-service 8080:8080
    

    Le résultat ressemble à ce qui suit :

    Forwarding from 127.0.0.1:8080 -> 8080
    
  2. Dans une nouvelle session de terminal, discutez avec votre modèle à l'aide de curl :

    curl http://localhost:8080/v1/completions \
    -X POST \
    -H "Content-Type: application/json" \
    -d '{
        "model": "mixtral-8x7b-instruct-gptq",
        "prompt": "<s>[INST]Who was the first president of the United States?[/INST]",
        "max_tokens": 40}'
    

    La sortie ressemble à ceci :

    George Washington was a Founding Father and the first president of the United States, serving from 1789 to 1797.
    

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page ne soient facturées sur votre compte Trusted Cloud by S3NS , supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.

Supprimer le projet

  1. In the Trusted Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Supprimer la ressource individuelle

  1. Supprimez les ressources Kubernetes que vous avez créées à partir de ce guide :

    kubectl delete deployment inference-mixtral-ccc
    kubectl delete service llm-service
    kubectl delete computeclass dws-model-inference-class
    kubectl delete secret model-inference-secret
    
  2. Supprimez le cluster à l'aide de la commande suivante :

    gcloud container clusters delete CLUSTER_NAME
    

Étapes suivantes