Entraîner un modèle avec des GPU en mode GKE Autopilot
Ce guide de démarrage rapide explique comment déployer un modèle d'entraînement avec des GPU dans Google Kubernetes Engine (GKE) et stocker les prédictions dans Cloud Storage. Ce document est destiné aux administrateurs GKE qui possèdent des clusters en mode Autopilot existants et qui souhaitent exécuter des charges de travail GPU pour la première fois.
Vous pouvez également exécuter ces charges de travail sur des clusters Standard si vous créez des pools de nœuds GPU distincts dans vos clusters. Pour obtenir des instructions, consultez Entraîner les modèles avec des GPU en mode GKE Standard.
Avant de commencer
-
In the Cloud de Confiance console, on the project selector page, select or create a Cloud de Confiance project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Cloud de Confiance project.
-
Enable the GKE and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Install the Google Cloud CLI.
-
Configurez la gcloud CLI afin d'utiliser votre identité fédérée.
Pour en savoir plus, consultez Se connecter à la gcloud CLI avec votre identité fédérée.
-
Pour initialiser la gcloud CLI, exécutez la commande suivante :
gcloud init
-
In the Cloud de Confiance console, activate Cloud Shell.
At the bottom of the Cloud de Confiance console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.
Dans la console Cloud de Confiance , accédez à la page Créer un cluster Autopilot :
Dans le champ Nom, saisissez
gke-gpu-cluster
.Dans la liste Région, sélectionnez
us-central1
.Cliquez sur Créer.
Dans la console Cloud de Confiance , accédez à la page Créer un bucket :
Dans le champ Attribuer un nom au bucket, saisissez le nom suivant :
PROJECT_ID-gke-gpu-bucket
Remplacez
PROJECT_ID
par l'ID de votre projet Cloud de Confiance.Cliquez sur Continuer.
Pour Type d'emplacement, sélectionnez Région.
Dans la liste Région, sélectionnez
us-central1 (Iowa)
, puis cliquez sur Continuer.Dans la section Choisir une classe de stockage pour vos données, cliquez sur Continuer.
Dans la section Choisir comment contrôler l'accès aux objets, pour Contrôle des accès, sélectionnez Uniforme.
Cliquez sur Créer.
Dans la boîte de dialogue L'accès public sera bloqué, assurez-vous que la case Appliquer la protection contre l'accès public sur ce bucket est cochée, puis cliquez sur Confirmer.
- Créer un ServiceAccount Kubernetes dans votre cluster
- Créez une stratégie d'autorisation IAM qui permet au compte de service d'accéder au bucket.
Connectez-vous à votre cluster :
gcloud container clusters get-credentials gke-gpu-cluster \ --location=us-central1
Créez un espace de noms Kubernetes :
kubectl create namespace gke-gpu-namespace
Créez un ServiceAccount Kubernetes dans l'espace de noms :
kubectl create serviceaccount gpu-k8s-sa --namespace=gke-gpu-namespace
Dans Cloud Shell, créez les variables d'environnement suivantes :
export K8S_SA_NAME=gpu-k8s-sa export BUCKET_NAME=PROJECT_ID-gke-gpu-bucket
Remplacez
PROJECT_ID
par l'ID de votre projet Cloud de Confiance.Créez un pod contenant un conteneur TensorFlow :
envsubst < src/gke-config/standard-tensorflow-bash.yaml | kubectl --namespace=gke-gpu-namespace apply -f -
Cette commande insère les variables d'environnement que vous avez créées dans les références correspondantes du fichier manifeste. Vous pouvez également ouvrir le fichier manifeste dans un éditeur de texte et remplacer
$K8S_SA_NAME
et$BUCKET_NAME
par les valeurs correspondantes.Créez un exemple de fichier dans le bucket :
touch sample-file gcloud storage cp sample-file gs://PROJECT_ID-gke-gpu-bucket
Attendez que votre pod soit prêt :
kubectl wait --for=condition=Ready pod/test-tensorflow-pod -n=gke-gpu-namespace --timeout=180s
Lorsque le pod est prêt, le résultat est le suivant :
pod/test-tensorflow-pod condition met
Si la commande expire, il est possible que GKE soit toujours en train de créer des nœuds pour exécuter les pods. Exécutez à nouveau la commande et attendez que le pod soit prêt.
Ouvrez une interface système dans le conteneur TensorFlow :
kubectl -n gke-gpu-namespace exec --stdin --tty test-tensorflow-pod --container tensorflow -- /bin/bash
Essayez de lire l'exemple de fichier que vous avez créé :
ls /data
Le résultat affiche le fichier d'exemple.
Consultez les journaux pour identifier le GPU associé au pod :
python -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'))"
La sortie affiche le GPU associé au pod, semblable à ceci :
... PhysicalDevice(name='/physical_device:GPU:0',device_type='GPU')
Quittez le conteneur :
exit
Supprimez l'exemple de pod :
kubectl delete -f src/gke-config/standard-tensorflow-bash.yaml \ --namespace=gke-gpu-namespace
Copiez les exemples de données dans le bucket Cloud Storage :
gcloud storage cp src/tensorflow-mnist-example gs://PROJECT_ID-gke-gpu-bucket/ --recursive
Créez les variables d'environnement suivantes :
export K8S_SA_NAME=gpu-k8s-sa export BUCKET_NAME=PROJECT_ID-gke-gpu-bucket
Examinez le Job d'entraînement :
Déployez le Job d'entraînement :
envsubst < src/gke-config/standard-tf-mnist-train.yaml | kubectl -n gke-gpu-namespace apply -f -
Cette commande remplace les variables d'environnement que vous avez créées par les références correspondantes dans le fichier manifeste. Vous pouvez également ouvrir le fichier manifeste dans un éditeur de texte et remplacer
$K8S_SA_NAME
et$BUCKET_NAME
par les valeurs correspondantes.Attendez que le Job ait l'état
Completed
:kubectl wait -n gke-gpu-namespace --for=condition=Complete job/mnist-training-job --timeout=180s
Une fois le job prêt, le résultat ressemble à ce qui suit :
job.batch/mnist-training-job condition met
Si la commande expire, il est possible que GKE soit toujours en train de créer des nœuds pour exécuter les pods. Exécutez à nouveau la commande et attendez que le job soit prêt.
Vérifiez les journaux du conteneur TensorFlow :
kubectl logs -f jobs/mnist-training-job -c tensorflow -n gke-gpu-namespace
Le résultat indique que les événements suivants se produisent :
- Installer les packages Python requis
- Télécharger l'ensemble de données MNIST
- Entraîner le modèle à l'aide d'un GPU
- Enregistrer le modèle
- Évaluer le modèle
... Epoch 12/12 927/938 [============================>.] - ETA: 0s - loss: 0.0188 - accuracy: 0.9954 Learning rate for epoch 12 is 9.999999747378752e-06 938/938 [==============================] - 5s 6ms/step - loss: 0.0187 - accuracy: 0.9954 - lr: 1.0000e-05 157/157 [==============================] - 1s 4ms/step - loss: 0.0424 - accuracy: 0.9861 Eval loss: 0.04236088693141937, Eval accuracy: 0.9861000180244446 Training finished. Model saved
Supprimez la charge de travail d'entraînement :
kubectl -n gke-gpu-namespace delete -f src/gke-config/standard-tf-mnist-train.yaml
Copiez les images pour la prédiction dans le bucket :
gcloud storage cp data/mnist_predict gs://PROJECT_ID-gke-gpu-bucket/ --recursive
Examinez la charge de travail d'inférence :
Déployez la charge de travail d'inférence :
envsubst < src/gke-config/standard-tf-mnist-batch-predict.yaml | kubectl -n gke-gpu-namespace apply -f -
Cette commande remplace les variables d'environnement que vous avez créées par les références correspondantes dans le fichier manifeste. Vous pouvez également ouvrir le fichier manifeste dans un éditeur de texte et remplacer
$K8S_SA_NAME
et$BUCKET_NAME
par les valeurs correspondantes.Attendez que le Job ait l'état
Completed
:kubectl wait -n gke-gpu-namespace --for=condition=Complete job/mnist-batch-prediction-job --timeout=180s
Le résultat ressemble à ce qui suit :
job.batch/mnist-batch-prediction-job condition met
Vérifiez les journaux du conteneur TensorFlow :
kubectl logs -f jobs/mnist-batch-prediction-job -c tensorflow -n gke-gpu-namespace
Le résultat correspond à la prédiction associée à chaque image et à la fiabilité du modèle, semblable à celle-ci :
Found 10 files belonging to 1 classes. 1/1 [==============================] - 2s 2s/step The image /data/mnist_predict/0.png is the number 0 with a 100.00 percent confidence. The image /data/mnist_predict/1.png is the number 1 with a 99.99 percent confidence. The image /data/mnist_predict/2.png is the number 2 with a 100.00 percent confidence. The image /data/mnist_predict/3.png is the number 3 with a 99.95 percent confidence. The image /data/mnist_predict/4.png is the number 4 with a 100.00 percent confidence. The image /data/mnist_predict/5.png is the number 5 with a 100.00 percent confidence. The image /data/mnist_predict/6.png is the number 6 with a 99.97 percent confidence. The image /data/mnist_predict/7.png is the number 7 with a 100.00 percent confidence. The image /data/mnist_predict/8.png is the number 8 with a 100.00 percent confidence. The image /data/mnist_predict/9.png is the number 9 with a 99.65 percent confidence.
- Conserver le cluster GKE : supprimez les ressources Kubernetes du cluster et les ressources Cloud de Confiance .
- Conserver le projet Cloud de Confiance : supprimez le cluster GKE et les ressources Cloud de Confiance .
- Supprimer le projet
Supprimez l'espace de noms Kubernetes et les charges de travail que vous avez déployées :
kubectl -n gke-gpu-namespace delete -f src/gke-config/standard-tf-mnist-batch-predict.yaml kubectl delete namespace gke-gpu-namespace
Supprimez le bucket Cloud Storage :
Accédez à la page Buckets :
Sélectionnez la case à cocher correspondant à
PROJECT_ID-gke-gpu-bucket
.Cliquez sur
Supprimer.Pour confirmer la suppression, saisissez
DELETE
, puis cliquez sur Supprimer.
Supprimez le compte de service Cloud de Confiance :
Accédez à la page Comptes de service :
Sélectionnez votre projet.
Sélectionnez la case à cocher correspondant à
gke-gpu-sa@PROJECT_ID.s3ns.iam.gserviceaccount.com
.Cliquez sur
Supprimer.Pour confirmer la suppression, cliquez sur Supprimer.
Supprimez le cluster GKE :
Accédez à la page Clusters :
Sélectionnez la case à cocher correspondant à
gke-gpu-cluster
.Cliquez sur
Supprimer.Pour confirmer la suppression, saisissez
gke-gpu-cluster
, puis cliquez sur Supprimer.
Supprimez le bucket Cloud Storage :
Accédez à la page Buckets :
Sélectionnez la case à cocher correspondant à
PROJECT_ID-gke-gpu-bucket
.Cliquez sur
Supprimer.Pour confirmer la suppression, saisissez
DELETE
, puis cliquez sur Supprimer.
Supprimez le compte de service Cloud de Confiance :
Accédez à la page Comptes de service :
Sélectionnez votre projet.
Sélectionnez la case à cocher correspondant à
gke-gpu-sa@PROJECT_ID.s3ns.iam.gserviceaccount.com
.Cliquez sur
Supprimer.Pour confirmer la suppression, cliquez sur Supprimer.
- In the Cloud de Confiance console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Cloner l'exemple de dépôt
Dans Cloud Shell, exécutez la commande suivante :
git clone https://github.com/GoogleCloudPlatform/ai-on-gke && \
cd ai-on-gke/tutorials-and-examples/gpu-examples/training-single-gpu
Créer un cluster
Créer un bucket Cloud Storage
Configurer votre cluster pour accéder au bucket à l'aide de la fédération d'identité de charge de travail pour GKE
Pour permettre à votre cluster d'accéder au bucket Cloud Storage, procédez comme suit :
Créer un ServiceAccount Kubernetes dans votre cluster
Dans Cloud Shell, procédez comme suit :
Créer une stratégie d'autorisation IAM sur le bucket
Attribuez le rôle Administrateur des objets de l'espace de stockage (roles/storage.objectAdmin
) au compte de service Kubernetes sur le bucket :
gcloud storage buckets add-iam-policy-binding gs://PROJECT_ID-gke-gpu-bucket \
--member=principal://iam.googleapis.com/projects/PROJECT_NUMBER/locations/global/workloadIdentityPools/PROJECT_ID.s3ns.svc.id.goog/subject/ns/gke-gpu-namespace/sa/gpu-k8s-sa \
--role=roles/storage.objectAdmin \
--condition=None
Remplacez PROJECT_NUMBER
par votre numéro de projet Cloud de Confiance.
Vérifier que les pods peuvent accéder au bucket Cloud Storage
Entraîner et prédire à l'aide de l'ensemble de données MNIST
Dans cette section, vous allez exécuter une charge de travail d'entraînement sur l'exemple d'ensemble de données MNIST
.
Déployer une charge de travail d'inférence
Dans cette section, vous allez déployer une charge de travail d'inférence qui utilise un exemple d'ensemble de données en tant qu'entrée et renvoie des prédictions.
Effectuer un nettoyage
Pour éviter que les ressources que vous avez créées dans ce guide soient facturées sur votre compte Cloud de Confiance , effectuez l'une des opérations suivantes :