יכול להיות שחלק מהמידע בדף הזה או כולו לא רלוונטי ל-Cloud de Confiance by S3NS. פרטים נוספים מופיעים במאמר מה ההבדל מ-Google Cloud.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

אימון מודל עם מעבדי GPU במצב GKE Autopilot

Autopilot

במדריך למתחילים הזה נסביר איך פורסים מודל אימון עם מעבדי GPU ב-Google Kubernetes Engine ‏ (GKE) ומאחסנים את התחזיות ב-Cloud Storage. המסמך הזה מיועד לאדמינים של GKE שיש להם אשכולות קיימים במצב Autopilot ורוצים להריץ עומסי עבודה של GPU בפעם הראשונה.

אפשר גם להריץ את עומסי העבודה האלה באשכולות רגילים אם יוצרים באשכולות מאגרי צמתים נפרדים של GPU. הוראות מפורטות זמינות במאמר אימון מודל באמצעות GPU במצב רגיל של GKE.

לפני שמתחילים

In the Cloud de Confiance console, on the project selector page, select or create a Cloud de Confiance project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Cloud de Confiance project.
Enable the GKE and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

התקינו את ה-CLI של Google Cloud.

הערה: אם התקנתם את ה-CLI של gcloud, השתמשו בפקודה gcloud components update כדי לבדוק אם הגרסה העדכנית מותקנת.
הגדירו שה-CLI של gcloud ישתמש בזהות המאוחדת שלכם.

איך נכנסים ל-CLI של gcloud באמצעות הזהות המאוחדת?
כדי לאתחל את ה-CLI של gcloud, הריצו את הפקודה הבאה:
```
gcloud init
```
במסוף Cloud de Confiance , מפעילים את Cloud Shell.

הפעלת Cloud Shell

בחלק התחתון של Cloud de Confiance המסוף יתחיל סשן של Cloud Shell ותופיע הודעה של שורת הפקודה. Cloud Shell היא סביבת מעטפת שבה ה-CLI של Google Cloud מותקן ומוגדרים ערכים לפרויקט הקיים. הסשן יופעל תוך כמה שניות.

שכפול המאגר לדוגמה

ב-Cloud Shell, מריצים את הפקודה הבאה:

git clone https://github.com/GoogleCloudPlatform/ai-on-gke && \
cd ai-on-gke/tutorials-and-examples/gpu-examples/training-single-gpu

יצירת אשכול

נכנסים לדף Create an Autopilot cluster במסוף Cloud de Confiance :

כניסה לדף Create an Autopilot cluster
בשדה שם מזינים gke-gpu-cluster.
ברשימה Region בוחרים באזור us-central1.
לוחצים על יצירה.

יצירת קטגוריה של Cloud Storage

נכנסים לדף Create a bucket במסוף Cloud de Confiance :

כניסה לדף Create a bucket
בקטע Get started (תחילת העבודה), מזינים שם ייחודי גלובלית לקטגוריה:
```
PROJECT_ID-gke-gpu-bucket
```
מחליפים את PROJECT_ID במזהה הפרויקט ב- Cloud de Confiance.
לוחצים על Continue.
בקטע Location type, בוחרים באפשרות Region.
ברשימה אזור בוחרים באפשרות us-central1 (Iowa) ולוחצים על המשך.
בקטע Choose a storage class for your data (בחירת סוג אחסון לנתונים), לוחצים על Continue (המשך).
בקטע Choose how to control access to objects, בוחרים באפשרות Uniform בשביל בקרת גישה.
לוחצים על יצירה.
בתיבת הדו-שיח Public access will be prevented, מוודאים שתיבת הסימון Enforce public access prevention on this bucket מסומנת, ולוחצים על Confirm.

הגדרת גישה לדלי באמצעות איחוד זהויות של עומסי עבודה ל-GKE

כדי לאפשר ל-cluster לגשת לקטגוריה של Cloud Storage, מבצעים את הפעולות הבאות:

יוצרים ServiceAccount של Kubernetes באשכול.
יוצרים מדיניות הרשאה ב-IAM שמאפשרת ל-ServiceAccount לגשת לקטגוריה.

יצירת חשבון שירות של Kubernetes באשכול

ב-Cloud Shell, מבצעים את הפעולות הבאות:

מתחברים לאשכול:

gcloud container clusters get-credentials gke-gpu-cluster \
    --location=us-central1

יוצרים מרחב שמות של Kubernetes:

kubectl create namespace gke-gpu-namespace

יוצרים חשבון שירות של Kubernetes במרחב השמות:

kubectl create serviceaccount gpu-k8s-sa --namespace=gke-gpu-namespace

יצירת מדיניות הרשאה של IAM בקטגוריה

מקצים את התפקיד Storage Object Admin (roles/storage.objectAdmin) בקטגוריה לחשבון השירות של Kubernetes:

gcloud storage buckets add-iam-policy-binding gs://PROJECT_ID-gke-gpu-bucket \
    --member=principal://iam.googleapis.com/projects/PROJECT_NUMBER/locations/global/workloadIdentityPools/PROJECT_ID.s3ns.svc.id.goog/subject/ns/gke-gpu-namespace/sa/gpu-k8s-sa \
    --role=roles/storage.objectAdmin \
    --condition=None

מחליפים את PROJECT_NUMBER במספר הפרויקט ב- Cloud de Confiance.

בדיקה אם ל-Pods יש גישה לקטגוריה של Cloud Storage

ב-Cloud Shell, יוצרים את משתני הסביבה הבאים:
```
export K8S_SA_NAME=gpu-k8s-sa
export BUCKET_NAME=PROJECT_ID-gke-gpu-bucket
```
מחליפים את PROJECT_ID במזהה הפרויקט ב- Cloud de Confiance.
יוצרים Pod עם קונטיינר TensorFlow:
```
envsubst < src/gke-config/standard-tensorflow-bash.yaml | kubectl --namespace=gke-gpu-namespace apply -f -
```
הפקודה הזו מוסיפה את משתני הסביבה שיצרתם להפניות המתאימות במניפסט. אפשר גם לפתוח את המניפסט בכלי לעריכת טקסט ולהחליף את $K8S_SA_NAME ואת $BUCKET_NAME בערכים המתאימים.

יוצרים קובץ לדוגמה בקטגוריה:

touch sample-file
gcloud storage cp sample-file gs://PROJECT_ID-gke-gpu-bucket

מחכים שה-Pod יהיה מוכן:
```
kubectl wait --for=condition=Ready pod/test-tensorflow-pod -n=gke-gpu-namespace --timeout=180s
```
כשה-Pod מוכן, הפלט הוא:
```
pod/test-tensorflow-pod condition met
```
אם פסק הזמן של הפקודה יחלוף, יכול להיות ש-GKE עדיין ייצור צמתים חדשים להפעלת ה-Pods. מריצים שוב את הפקודה ומחכים שה-Pod יהיה מוכן.

פותחים מעטפת במאגר TensorFlow:

kubectl -n gke-gpu-namespace exec --stdin --tty test-tensorflow-pod --container tensorflow -- /bin/bash

מנסים לקרוא את קובץ הדוגמה שיצרתם:
```
ls /data
```
הפלט מציג את קובץ הדוגמה.
בודקים את היומנים כדי לזהות את ה-GPU שמצורף ל-Pod:
```
python -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'))"
```
הפלט מציג את ה-GPU שמצורף ל-Pod, באופן דומה לזה:
```
...
PhysicalDevice(name='/physical_device:GPU:0',device_type='GPU')
```
יוצאים מהקונטיינר:
```
exit
```

מוחקים את ה-Pod לדוגמה:

kubectl delete -f src/gke-config/standard-tensorflow-bash.yaml \
    --namespace=gke-gpu-namespace

אימון וחיזוי באמצעות מערך הנתונים `MNIST`

בקטע הזה מריצים עומס עבודה של אימון על מערך הנתונים לדוגמה MNIST.

מעתיקים את הנתונים לדוגמה לקטגוריה של Cloud Storage:

gcloud storage cp src/tensorflow-mnist-example gs://PROJECT_ID-gke-gpu-bucket/ --recursive

יוצרים את משתני הסביבה הבאים:

export K8S_SA_NAME=gpu-k8s-sa
export BUCKET_NAME=PROJECT_ID-gke-gpu-bucket

בודקים את משימת האימון:

# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#      http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: batch/v1
kind: Job
metadata:
  name: mnist-training-job
spec:
  template:
    metadata:
      name: mnist
      annotations:
        gke-gcsfuse/volumes: "true"
    spec:
      nodeSelector:
        cloud.google.com/gke-accelerator: nvidia-tesla-t4
      tolerations:
      - key: "nvidia.com/gpu"
        operator: "Exists"
        effect: "NoSchedule"
      containers:
      - name: tensorflow
        image: tensorflow/tensorflow:latest-gpu 
        command: ["/bin/bash", "-c", "--"]
        args: ["cd /data/tensorflow-mnist-example; pip install -r requirements.txt; python tensorflow_mnist_train_distributed.py"]
        resources:
          limits:
            nvidia.com/gpu: 1
            cpu: 1
            memory: 3Gi
        volumeMounts:
        - name: gcs-fuse-csi-vol
          mountPath: /data
          readOnly: false
      serviceAccountName: $K8S_SA_NAME
      volumes:
      - name: gcs-fuse-csi-vol
        csi:
          driver: gcsfuse.csi.storage.gke.io
          readOnly: false
          volumeAttributes:
            bucketName: $BUCKET_NAME
            mountOptions: "implicit-dirs"
      restartPolicy: "Never"

פורסים את משימת האימון:
```
envsubst < src/gke-config/standard-tf-mnist-train.yaml | kubectl -n gke-gpu-namespace apply -f -
```
הפקודה הזו מחליפה את משתני הסביבה שיצרתם בהפניות המתאימות במניפסט. אפשר גם לפתוח את המניפסט בכלי לעריכת טקסט ולהחליף את $K8S_SA_NAME ואת $BUCKET_NAME בערכים המתאימים.
מחכים עד שהסטטוס של העבודה יהיה Completed:
```
kubectl wait -n gke-gpu-namespace --for=condition=Complete job/mnist-training-job --timeout=180s
```
כשהעבודה מוכנה, הפלט אמור להיראות כך:
```
job.batch/mnist-training-job condition met
```
אם פסק הזמן של הפקודה יחלוף, יכול להיות ש-GKE עדיין ייצור צמתים חדשים להפעלת ה-Pods. מריצים שוב את הפקודה ומחכים שהסטטוס של העבודה יהיה מוכן.

בודקים את היומנים מהקונטיינר של TensorFlow:

kubectl logs -f jobs/mnist-training-job -c tensorflow -n gke-gpu-namespace

בפלט מוצגים האירועים הבאים:

התקנת חבילות Python נדרשות
הורדת מערך הנתונים MNIST
אימון המודל באמצעות GPU
שמירת המודל
הערכת המודל

...
Epoch 12/12
927/938 [============================>.] - ETA: 0s - loss: 0.0188 - accuracy: 0.9954
Learning rate for epoch 12 is 9.999999747378752e-06
938/938 [==============================] - 5s 6ms/step - loss: 0.0187 - accuracy: 0.9954 - lr: 1.0000e-05
157/157 [==============================] - 1s 4ms/step - loss: 0.0424 - accuracy: 0.9861
Eval loss: 0.04236088693141937, Eval accuracy: 0.9861000180244446
Training finished. Model saved

מחיקת עומס העבודה של האימון:

kubectl -n gke-gpu-namespace delete -f src/gke-config/standard-tf-mnist-train.yaml

פריסת עומס עבודה של הסקה

בקטע הזה תפרסו עומס עבודה של היקשים שמקבל מערך נתונים לדוגמה כקלט ומחזיר חיזויים.

מעתיקים את התמונות לחיזוי לקטגוריה:

gcloud storage cp data/mnist_predict gs://PROJECT_ID-gke-gpu-bucket/ --recursive

בודקים את עומס העבודה של ההסקה:

# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#      http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

apiVersion: batch/v1
kind: Job
metadata:
  name: mnist-batch-prediction-job
spec:
  template:
    metadata:
      name: mnist
      annotations:
        gke-gcsfuse/volumes: "true"
    spec:
      nodeSelector:
        cloud.google.com/gke-accelerator: nvidia-tesla-t4
      tolerations:
      - key: "nvidia.com/gpu"
        operator: "Exists"
        effect: "NoSchedule"
      containers:
      - name: tensorflow
        image: tensorflow/tensorflow:latest-gpu 
        command: ["/bin/bash", "-c", "--"]
        args: ["cd /data/tensorflow-mnist-example; pip install -r requirements.txt; python tensorflow_mnist_batch_predict.py"]
        resources:
          limits:
            nvidia.com/gpu: 1
            cpu: 1
            memory: 3Gi
        volumeMounts:
        - name: gcs-fuse-csi-vol
          mountPath: /data
          readOnly: false
      serviceAccountName: $K8S_SA_NAME
      volumes:
      - name: gcs-fuse-csi-vol
        csi:
          driver: gcsfuse.csi.storage.gke.io
          readOnly: false
          volumeAttributes:
            bucketName: $BUCKET_NAME
            mountOptions: "implicit-dirs"
      restartPolicy: "Never"

פריסת עומס העבודה של ההסקה:
```
envsubst < src/gke-config/standard-tf-mnist-batch-predict.yaml | kubectl -n gke-gpu-namespace apply -f -
```
הפקודה הזו מחליפה את משתני הסביבה שיצרתם בהפניות התואמות במניפסט. אפשר גם לפתוח את המניפסט בכלי לעריכת טקסט ולהחליף את $K8S_SA_NAME ואת $BUCKET_NAME בערכים המתאימים.

מחכים עד שהסטטוס של העבודה יהיה Completed:

kubectl wait -n gke-gpu-namespace --for=condition=Complete job/mnist-batch-prediction-job --timeout=180s

הפלט אמור להיראות כך:

job.batch/mnist-batch-prediction-job condition met

בודקים את היומנים מהקונטיינר של TensorFlow:

kubectl logs -f jobs/mnist-batch-prediction-job -c tensorflow -n gke-gpu-namespace

הפלט הוא החיזוי לכל תמונה ורמת הסמך של המודל בחיזוי, בדומה למה שמוצג כאן:

Found 10 files belonging to 1 classes.
1/1 [==============================] - 2s 2s/step
The image /data/mnist_predict/0.png is the number 0 with a 100.00 percent confidence.
The image /data/mnist_predict/1.png is the number 1 with a 99.99 percent confidence.
The image /data/mnist_predict/2.png is the number 2 with a 100.00 percent confidence.
The image /data/mnist_predict/3.png is the number 3 with a 99.95 percent confidence.
The image /data/mnist_predict/4.png is the number 4 with a 100.00 percent confidence.
The image /data/mnist_predict/5.png is the number 5 with a 100.00 percent confidence.
The image /data/mnist_predict/6.png is the number 6 with a 99.97 percent confidence.
The image /data/mnist_predict/7.png is the number 7 with a 100.00 percent confidence.
The image /data/mnist_predict/8.png is the number 8 with a 100.00 percent confidence.
The image /data/mnist_predict/9.png is the number 9 with a 99.65 percent confidence.

הסרת המשאבים

כדי להימנע מחיובים בחשבון Cloud de Confiance על המשאבים שיצרתם במדריך הזה, אפשר לבצע אחת מהפעולות הבאות:

אם רוצים לשמור את אשכול GKE: מוחקים את משאבי Kubernetes באשכול ואת משאבי Cloud de Confiance
שמירת הפרויקט: מחיקת אשכול GKE והמשאבים Cloud de Confiance Cloud de Confiance
מחיקת הפרויקט

מחיקת משאבי Kubernetes באשכול ובמשאבים Cloud de Confiance

מוחקים את מרחב השמות של Kubernetes ואת עומסי העבודה שפרסתם:

kubectl -n gke-gpu-namespace delete -f src/gke-config/standard-tf-mnist-batch-predict.yaml
kubectl delete namespace gke-gpu-namespace

מוחקים את הקטגוריה של Cloud Storage:
1. נכנסים לדף Buckets:
  
  כניסה לדף Buckets
2. מסמנים את התיבה PROJECT_ID-gke-gpu-bucket.
3. לוחצים על מחיקה.
4. כדי לאשר את המחיקה, מקלידים DELETE ולוחצים על מחיקה.
מוחקים את Cloud de Confiance חשבון השירות:
1. עוברים לדף Service accounts:
  
  כניסה לדף Service accounts
2. בוחרים את הפרויקט הרצוי.
3. מסמנים את התיבה gke-gpu-sa@PROJECT_ID.s3ns.iam.gserviceaccount.com.
4. לוחצים על מחיקה.
5. לוחצים על מחיקה כדי לאשר.

מחיקת אשכול GKE והמשאבים Cloud de Confiance

מחיקת אשכול GKE:
1. עוברים לדף Clusters:
  
  מעבר אל Clusters
2. מסמנים את התיבה של gke-gpu-cluster.
3. לוחצים על מחיקה.
4. כדי לאשר את המחיקה, מקלידים gke-gpu-cluster ולוחצים על מחיקה.
מוחקים את הקטגוריה של Cloud Storage:
1. נכנסים לדף Buckets:
  
  כניסה לדף Buckets
2. מסמנים את התיבה PROJECT_ID-gke-gpu-bucket.
3. לוחצים על מחיקה.
4. כדי לאשר את המחיקה, מקלידים DELETE ולוחצים על מחיקה.
מוחקים את Cloud de Confiance חשבון השירות:
1. עוברים לדף Service accounts:
  
  כניסה לדף Service accounts
2. בוחרים את הפרויקט הרצוי.
3. מסמנים את התיבה gke-gpu-sa@PROJECT_ID.s3ns.iam.gserviceaccount.com.
4. לוחצים על מחיקה.
5. לוחצים על מחיקה כדי לאשר.

מחיקת הפרויקט

זהירות: כשמוחקים פרויקט:

התוכן של הפרויקט נמחק כולו. אם השתמשתם בפרויקט קיים כדי לתרגל את המשימות במדריך הזה, כשתמחקו אותו תימחק גם כל העבודה שביצעתם באותו פרויקט.
מאבדים את מזהה הפרויקט בהתאמה אישית. כשיצרתם את הפרויקט, יכולתם לבחור לו מזהה פרויקט בהתאמה אישית כדי להשתמש בו בעתיד. כדי לשמור על כתובות ה-URL שמשתמשות במזהה הפרויקט, כמו appspot.com, צריך למחוק את המשאבים שנבחרו בפרויקט אבל לא את הפרויקט כולו.

אם אתם מתכננים להיעזר בכמה ארכיטקטורות, מדריכים או מדריכים למתחילים, מומלץ להשתמש שוב באותו פרויקט כדי לא לחרוג ממכסות הפרויקטים.

במסוף Cloud de Confiance , נכנסים לדף Manage resources.
כניסה לדף Manage resources
ברשימת הפרויקטים, בוחרים את הפרויקט שרוצים למחוק ולוחצים על Delete.
כדי למחוק את הפרויקט, כותבים את מזהה הפרויקט בתיבת הדו-שיח ולוחצים על Shut down.

המאמרים הבאים

מידע נוסף על שימוש ביחידות GPU ב-GKE