Il est possible qu'une partie ou l'ensemble des informations de cette page ne s'appliquent pas au Cloud de confiance S3NS. Pour en savoir plus, consultez Différences par rapport à Google Cloud.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Entraîner un modèle avec des GPU en mode GKE Autopilot

Autopilot

Ce guide de démarrage rapide explique comment déployer un modèle d'entraînement avec des GPU dans Google Kubernetes Engine (GKE) et stocker les prédictions dans Cloud Storage. Ce document est destiné aux administrateurs GKE qui possèdent des clusters en mode Autopilot existants et qui souhaitent exécuter des charges de travail GPU pour la première fois.

Vous pouvez également exécuter ces charges de travail sur des clusters Standard si vous créez des pools de nœuds GPU distincts dans vos clusters. Pour obtenir des instructions, consultez Entraîner les modèles avec des GPU en mode GKE Standard.

Avant de commencer

In the Cloud de Confiance console, on the project selector page, select or create a Cloud de Confiance project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Cloud de Confiance project.
Enable the GKE and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

Installez la Google Cloud CLI.

Remarque : Si vous avez déjà installé la gcloud CLI, assurez-vous que vous disposez de la dernière version en exécutant gcloud components update.
Configurez la gcloud CLI afin d'utiliser votre identité fédérée.

Pour en savoir plus, consultez Se connecter à la gcloud CLI avec votre identité fédérée.
Pour initialiser la gcloud CLI, exécutez la commande suivante :
```
gcloud init
```
Dans la console Cloud de Confiance , activez Cloud Shell.

Activer Cloud Shell

En bas de la console Cloud de Confiance , une session Cloud Shell démarre et affiche une invite de ligne de commande. Cloud Shell est un environnement de shell dans lequel Google Cloud CLI est déjà installé, et dans lequel des valeurs sont déjà définies pour votre projet actuel. L'initialisation de la session peut prendre quelques secondes.

Cloner l'exemple de dépôt

Dans Cloud Shell, exécutez la commande suivante :

git clone https://github.com/GoogleCloudPlatform/ai-on-gke && \
cd ai-on-gke/tutorials-and-examples/gpu-examples/training-single-gpu

Créer un cluster

Dans la console Cloud de Confiance , accédez à la page Créer un cluster Autopilot :

Accéder à la page "Créer un cluster Autopilot"
Dans le champ Nom, saisissez gke-gpu-cluster.
Dans la liste Région, sélectionnez us-central1.
Cliquez sur Créer.

Créer un bucket Cloud Storage

Dans la console Cloud de Confiance , accédez à la page Créer un bucket :

Accéder à la page Créer un bucket
Dans la section Premiers pas, saisissez un nom unique pour votre bucket :
```
PROJECT_ID-gke-gpu-bucket
```
Remplacez PROJECT_ID par l'ID de votre projet Cloud de Confiance.
Cliquez sur Continuer.
Pour Type d'emplacement, sélectionnez Région.
Dans la liste Région, sélectionnez us-central1 (Iowa), puis cliquez sur Continuer.
Dans la section Choisir une classe de stockage pour vos données, cliquez sur Continuer.
Dans la section Choisir comment contrôler l'accès aux objets, pour Contrôle des accès, sélectionnez Uniforme.
Cliquez sur Créer.
Dans la boîte de dialogue L'accès public sera bloqué, assurez-vous que la case Appliquer la protection contre l'accès public sur ce bucket est cochée, puis cliquez sur Confirmer.

Configurer votre cluster pour accéder au bucket à l'aide de la fédération d'identité de charge de travail pour GKE

Pour permettre à votre cluster d'accéder au bucket Cloud Storage, procédez comme suit :

Créer un ServiceAccount Kubernetes dans votre cluster
Créez une stratégie d'autorisation IAM qui permet au compte de service d'accéder au bucket.

Créer un ServiceAccount Kubernetes dans votre cluster

Dans Cloud Shell, procédez comme suit :

Connectez-vous à votre cluster :

gcloud container clusters get-credentials gke-gpu-cluster \
    --location=us-central1

Créez un espace de noms Kubernetes :

kubectl create namespace gke-gpu-namespace

Créez un ServiceAccount Kubernetes dans l'espace de noms :

kubectl create serviceaccount gpu-k8s-sa --namespace=gke-gpu-namespace

Créer une stratégie d'autorisation IAM sur le bucket

Attribuez le rôle Administrateur des objets de l'espace de stockage (roles/storage.objectAdmin) au compte de service Kubernetes sur le bucket :

gcloud storage buckets add-iam-policy-binding gs://PROJECT_ID-gke-gpu-bucket \
    --member=principal://iam.googleapis.com/projects/PROJECT_NUMBER/locations/global/workloadIdentityPools/PROJECT_ID.s3ns.svc.id.goog/subject/ns/gke-gpu-namespace/sa/gpu-k8s-sa \
    --role=roles/storage.objectAdmin \
    --condition=None

Remplacez PROJECT_NUMBER par votre numéro de projet Cloud de Confiance.

Vérifier que les pods peuvent accéder au bucket Cloud Storage

Dans Cloud Shell, créez les variables d'environnement suivantes :
```
export K8S_SA_NAME=gpu-k8s-sa
export BUCKET_NAME=PROJECT_ID-gke-gpu-bucket
```
Remplacez PROJECT_ID par l'ID de votre projet Cloud de Confiance.
Créez un pod contenant un conteneur TensorFlow :
```
envsubst < src/gke-config/standard-tensorflow-bash.yaml | kubectl --namespace=gke-gpu-namespace apply -f -
```
Cette commande insère les variables d'environnement que vous avez créées dans les références correspondantes du fichier manifeste. Vous pouvez également ouvrir le fichier manifeste dans un éditeur de texte et remplacer $K8S_SA_NAME et $BUCKET_NAME par les valeurs correspondantes.

Créez un exemple de fichier dans le bucket :

touch sample-file
gcloud storage cp sample-file gs://PROJECT_ID-gke-gpu-bucket

Attendez que votre pod soit prêt :
```
kubectl wait --for=condition=Ready pod/test-tensorflow-pod -n=gke-gpu-namespace --timeout=180s
```
Lorsque le pod est prêt, le résultat est le suivant :
```
pod/test-tensorflow-pod condition met
```
Si la commande expire, il est possible que GKE soit toujours en train de créer des nœuds pour exécuter les pods. Exécutez à nouveau la commande et attendez que le pod soit prêt.

Ouvrez une interface système dans le conteneur TensorFlow :

kubectl -n gke-gpu-namespace exec --stdin --tty test-tensorflow-pod --container tensorflow -- /bin/bash

Essayez de lire l'exemple de fichier que vous avez créé :
```
ls /data
```
Le résultat affiche le fichier d'exemple.

Consultez les journaux pour identifier le GPU associé au pod :

python -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'))"

La sortie affiche le GPU associé au pod, semblable à ceci :

...
PhysicalDevice(name='/physical_device:GPU:0',device_type='GPU')

Quittez le conteneur :
```
exit
```

Supprimez l'exemple de pod :

kubectl delete -f src/gke-config/standard-tensorflow-bash.yaml \
    --namespace=gke-gpu-namespace

Entraîner et prédire à l'aide de l'ensemble de données `MNIST`

Dans cette section, vous allez exécuter une charge de travail d'entraînement sur l'exemple d'ensemble de données MNIST.

Copiez les exemples de données dans le bucket Cloud Storage :

gcloud storage cp src/tensorflow-mnist-example gs://PROJECT_ID-gke-gpu-bucket/ --recursive

Créez les variables d'environnement suivantes :

export K8S_SA_NAME=gpu-k8s-sa
export BUCKET_NAME=PROJECT_ID-gke-gpu-bucket

Examinez le Job d'entraînement :

# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#      http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: batch/v1
kind: Job
metadata:
  name: mnist-training-job
spec:
  template:
    metadata:
      name: mnist
      annotations:
        gke-gcsfuse/volumes: "true"
    spec:
      nodeSelector:
        cloud.google.com/gke-accelerator: nvidia-tesla-t4
      tolerations:
      - key: "nvidia.com/gpu"
        operator: "Exists"
        effect: "NoSchedule"
      containers:
      - name: tensorflow
        image: tensorflow/tensorflow:latest-gpu 
        command: ["/bin/bash", "-c", "--"]
        args: ["cd /data/tensorflow-mnist-example; pip install -r requirements.txt; python tensorflow_mnist_train_distributed.py"]
        resources:
          limits:
            nvidia.com/gpu: 1
            cpu: 1
            memory: 3Gi
        volumeMounts:
        - name: gcs-fuse-csi-vol
          mountPath: /data
          readOnly: false
      serviceAccountName: $K8S_SA_NAME
      volumes:
      - name: gcs-fuse-csi-vol
        csi:
          driver: gcsfuse.csi.storage.gke.io
          readOnly: false
          volumeAttributes:
            bucketName: $BUCKET_NAME
            mountOptions: "implicit-dirs"
      restartPolicy: "Never"

Déployez le Job d'entraînement :
```
envsubst < src/gke-config/standard-tf-mnist-train.yaml | kubectl -n gke-gpu-namespace apply -f -
```
Cette commande remplace les variables d'environnement que vous avez créées par les références correspondantes dans le fichier manifeste. Vous pouvez également ouvrir le fichier manifeste dans un éditeur de texte et remplacer $K8S_SA_NAME et $BUCKET_NAME par les valeurs correspondantes.
Attendez que le Job ait l'état Completed :
```
kubectl wait -n gke-gpu-namespace --for=condition=Complete job/mnist-training-job --timeout=180s
```
Une fois le job prêt, le résultat ressemble à ce qui suit :
```
job.batch/mnist-training-job condition met
```
Si la commande expire, il est possible que GKE soit toujours en train de créer des nœuds pour exécuter les pods. Exécutez à nouveau la commande et attendez que le job soit prêt.

Vérifiez les journaux du conteneur TensorFlow :

kubectl logs -f jobs/mnist-training-job -c tensorflow -n gke-gpu-namespace

Le résultat indique que les événements suivants se produisent :

Installer les packages Python requis
Télécharger l'ensemble de données MNIST
Entraîner le modèle à l'aide d'un GPU
Enregistrer le modèle
Évaluer le modèle

...
Epoch 12/12
927/938 [============================>.] - ETA: 0s - loss: 0.0188 - accuracy: 0.9954
Learning rate for epoch 12 is 9.999999747378752e-06
938/938 [==============================] - 5s 6ms/step - loss: 0.0187 - accuracy: 0.9954 - lr: 1.0000e-05
157/157 [==============================] - 1s 4ms/step - loss: 0.0424 - accuracy: 0.9861
Eval loss: 0.04236088693141937, Eval accuracy: 0.9861000180244446
Training finished. Model saved

Supprimez la charge de travail d'entraînement :

kubectl -n gke-gpu-namespace delete -f src/gke-config/standard-tf-mnist-train.yaml

Déployer une charge de travail d'inférence

Dans cette section, vous allez déployer une charge de travail d'inférence qui utilise un exemple d'ensemble de données en tant qu'entrée et renvoie des prédictions.

Copiez les images pour la prédiction dans le bucket :

gcloud storage cp data/mnist_predict gs://PROJECT_ID-gke-gpu-bucket/ --recursive

Examinez la charge de travail d'inférence :

# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#      http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: batch/v1
kind: Job
metadata:
  name: mnist-batch-prediction-job
spec:
  template:
    metadata:
      name: mnist
      annotations:
        gke-gcsfuse/volumes: "true"
    spec:
      nodeSelector:
        cloud.google.com/gke-accelerator: nvidia-tesla-t4
      tolerations:
      - key: "nvidia.com/gpu"
        operator: "Exists"
        effect: "NoSchedule"
      containers:
      - name: tensorflow
        image: tensorflow/tensorflow:latest-gpu 
        command: ["/bin/bash", "-c", "--"]
        args: ["cd /data/tensorflow-mnist-example; pip install -r requirements.txt; python tensorflow_mnist_batch_predict.py"]
        resources:
          limits:
            nvidia.com/gpu: 1
            cpu: 1
            memory: 3Gi
        volumeMounts:
        - name: gcs-fuse-csi-vol
          mountPath: /data
          readOnly: false
      serviceAccountName: $K8S_SA_NAME
      volumes:
      - name: gcs-fuse-csi-vol
        csi:
          driver: gcsfuse.csi.storage.gke.io
          readOnly: false
          volumeAttributes:
            bucketName: $BUCKET_NAME
            mountOptions: "implicit-dirs"
      restartPolicy: "Never"

Déployez la charge de travail d'inférence :
```
envsubst < src/gke-config/standard-tf-mnist-batch-predict.yaml | kubectl -n gke-gpu-namespace apply -f -
```
Cette commande remplace les variables d'environnement que vous avez créées par les références correspondantes dans le fichier manifeste. Vous pouvez également ouvrir le fichier manifeste dans un éditeur de texte et remplacer $K8S_SA_NAME et $BUCKET_NAME par les valeurs correspondantes.

Attendez que le Job ait l'état Completed :

kubectl wait -n gke-gpu-namespace --for=condition=Complete job/mnist-batch-prediction-job --timeout=180s

Le résultat ressemble à ce qui suit :

job.batch/mnist-batch-prediction-job condition met

Vérifiez les journaux du conteneur TensorFlow :

kubectl logs -f jobs/mnist-batch-prediction-job -c tensorflow -n gke-gpu-namespace

Le résultat correspond à la prédiction associée à chaque image et à la fiabilité du modèle, semblable à celle-ci :

Found 10 files belonging to 1 classes.
1/1 [==============================] - 2s 2s/step
The image /data/mnist_predict/0.png is the number 0 with a 100.00 percent confidence.
The image /data/mnist_predict/1.png is the number 1 with a 99.99 percent confidence.
The image /data/mnist_predict/2.png is the number 2 with a 100.00 percent confidence.
The image /data/mnist_predict/3.png is the number 3 with a 99.95 percent confidence.
The image /data/mnist_predict/4.png is the number 4 with a 100.00 percent confidence.
The image /data/mnist_predict/5.png is the number 5 with a 100.00 percent confidence.
The image /data/mnist_predict/6.png is the number 6 with a 99.97 percent confidence.
The image /data/mnist_predict/7.png is the number 7 with a 100.00 percent confidence.
The image /data/mnist_predict/8.png is the number 8 with a 100.00 percent confidence.
The image /data/mnist_predict/9.png is the number 9 with a 99.65 percent confidence.

Effectuer un nettoyage

Pour éviter que les ressources que vous avez créées dans ce guide soient facturées sur votre compte Cloud de Confiance , effectuez l'une des opérations suivantes :

Conserver le cluster GKE : supprimez les ressources Kubernetes du cluster et les ressources Cloud de Confiance .
Conserver le projet Cloud de Confiance : supprimez le cluster GKE et les ressources Cloud de Confiance .
Supprimer le projet

Supprimer les ressources Kubernetes du cluster et les ressources Cloud de Confiance

Supprimez l'espace de noms Kubernetes et les charges de travail que vous avez déployées :

kubectl -n gke-gpu-namespace delete -f src/gke-config/standard-tf-mnist-batch-predict.yaml
kubectl delete namespace gke-gpu-namespace

Supprimez le bucket Cloud Storage :
1. Accédez à la page Buckets :
  
  Accéder à la page "Buckets"
2. Sélectionnez la case à cocher correspondant à PROJECT_ID-gke-gpu-bucket.
3. Cliquez sur Supprimer.
4. Pour confirmer la suppression, saisissez DELETE, puis cliquez sur Supprimer.
Supprimez le compte de service Cloud de Confiance :
1. Accédez à la page Comptes de service :
  
  Accéder à la page "Comptes de service"
2. Sélectionnez votre projet.
3. Sélectionnez la case à cocher correspondant à gke-gpu-sa@PROJECT_ID.s3ns.iam.gserviceaccount.com.
4. Cliquez sur Supprimer.
5. Pour confirmer la suppression, cliquez sur Supprimer.

Supprimer le cluster GKE et les ressources Cloud de Confiance

Supprimez le cluster GKE :
1. Accédez à la page Clusters :
  
  accéder aux clusters
2. Sélectionnez la case à cocher correspondant à gke-gpu-cluster.
3. Cliquez sur Supprimer.
4. Pour confirmer la suppression, saisissez gke-gpu-cluster, puis cliquez sur Supprimer.
Supprimez le bucket Cloud Storage :
1. Accédez à la page Buckets :
  
  Accéder à la page "Buckets"
2. Sélectionnez la case à cocher correspondant à PROJECT_ID-gke-gpu-bucket.
3. Cliquez sur Supprimer.
4. Pour confirmer la suppression, saisissez DELETE, puis cliquez sur Supprimer.
Supprimez le compte de service Cloud de Confiance :
1. Accédez à la page Comptes de service :
  
  Accéder à la page "Comptes de service"
2. Sélectionnez votre projet.
3. Sélectionnez la case à cocher correspondant à gke-gpu-sa@PROJECT_ID.s3ns.iam.gserviceaccount.com.
4. Cliquez sur Supprimer.
5. Pour confirmer la suppression, cliquez sur Supprimer.

Supprimer le projet

Attention : La suppression d'un projet aura les effets suivants :

Tout le contenu du projet est supprimé. Si vous avez utilisé un projet existant pour les tâches décrites dans ce document et que vous le supprimez, vous supprimerez également tout autre travail effectué dans le projet.
Les ID de projets personnalisés sont perdus. Lorsque vous avez créé ce projet, vous avez peut-être créé un ID de projet personnalisé que vous souhaitez utiliser à l'avenir. Pour conserver les URL qui utilisent l'ID de projet, telle qu'une URL appspot.com, supprimez les ressources sélectionnées dans le projet au lieu de supprimer l'ensemble du projet.

Si vous envisagez d'explorer plusieurs architectures, tutoriels et guides de démarrage rapide, réutiliser des projets peut vous aider à ne pas dépasser les limites de quotas des projets.

Dans la console Cloud de Confiance , accédez à la page Gérer les ressources.
Accéder à la page "Gérer les ressources"
Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Étapes suivantes

Apprenez-en plus sur l'utilisation des GPU dans GKE.