במאמר הזה נסביר איך ליצור מכונה וירטואלית (VM) שמשתמשת בסוג מכונה מסדרת המכונות A2 או A3 High שממוטבת למאיצים.
במקרה של סוגי מכונות A3 High, המסמך הזה מתייחס רק לסוגי מכונות עם פחות מ-8 יחידות GPU שמצורפות אליהן. אפשר ליצור את סוגי המכונות האלה מסוג A3 High עם פחות מ-8 מעבדי GPU רק כמכונות וירטואליות זמניות מסוג Spot או כמכונות וירטואליות מסוג Flex-start. כדי ליצור מכונת A3 עם 8 יחידות GPU מצורפות, אפשר לעיין במאמר יצירת מכונת A3 Mega, A3 High או A3 Edge עם GPUDirect מופעל.
כדי ליצור כמה מכונות וירטואליות מסוג A3 או A2, אפשר גם להשתמש באחת מהאפשרויות הבאות:
- קבוצות מופעי מכונה מנוהלים (MIG): לעומסי עבודה שדורשים זמינות גבוהה, מדרגיות ותיקונים אוטומטיים, אתם יכולים ליצור קבוצת MIG שמשתמשת בתבנית של הגדרות מכונה של GPU.
- יצירת מכונות בכמות גדולה: כדי ליצור מספר גדול של מכונות עצמאיות, אפשר ליצור מכונות וירטואליות מסוג A3 או A2 בכמות גדולה.
לפני שמתחילים
- כדי לעיין במגבלות ובשלבי הכנה נוספים ליצירת מכונות עם GPU מצורף, כמו בחירת תמונת מערכת הפעלה ובדיקת מכסת ה-GPU, אפשר לעיין במאמר סקירה כללית על יצירת מכונה עם GPU מצורף.
-
אם עדיין לא עשיתם את זה, תצטרכו להגדיר אימות.
אימות הוא תהליך שבו מאמתים את הזהות שלכם כדי לקבל גישה לממשקי API ולשירותים של Cloud de Confiance by S3NS . כדי להריץ קוד או דוגמאות מסביבת פיתוח מקומית, אפשר לבצע אימות ל-Compute Engine באחת מהדרכים הבאות:
צריך לבחור את הכרטיסייה הרלוונטית לאופן שבו תכננתם להשתמש בדוגמאות בדף הזה:
המסוף
כשמשתמשים במסוף Cloud de Confiance כדי לגשת לשירותים ולממשקי ה-API, לא צריך להגדיר אימות. Cloud de Confiance by S3NS
gcloud
-
התקינו את ה-CLI של Google Cloud ואז היכנסו ל-CLI של gcloud באמצעות הזהות המאוחדת שלכם. אחרי שנכנסתם לחשבון, אתחלו את ה-CLI של Google Cloud באמצעות הפקודה הבאה:
gcloud init
-
- הגדרת אזור ותחום כברירת מחדל
REST
כדי להשתמש בסביבת פיתוח מקומית בדוגמאות של API בארכיטקטורת REST שבדף הזה, צריך להשתמש בפרטי הכניסה שאתם נותנים ל-CLI של gcloud.
התקינו את ה-CLI של Google Cloud ואז היכנסו ל-CLI של gcloud באמצעות הזהות המאוחדת שלכם.
מידע נוסף מופיע במאמר אימות לשימוש ב-REST במסמכי האימות של Cloud de Confiance .
התפקידים הנדרשים
כדי לקבל את ההרשאות שנדרשות ליצירת מכונות וירטואליות, צריך לבקש מהאדמין להקצות לכם ב-IAM את התפקיד אדמין מכונות של Compute (v1) (roles/compute.instanceAdmin.v1) בפרויקט.
כדי לקרוא הסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
זהו תפקיד שמוגדר מראש וכולל את ההרשאות שנדרשות ליצירת מכונות וירטואליות. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי ליצור מכונות וירטואליות, צריך את ההרשאות הבאות:
-
compute.instances.createבפרויקט -
כדי להשתמש באימג' בהתאמה אישית ליצירת המכונה הווירטואלית (VM):
compute.images.useReadOnlyבקובץ אימג' -
כדי להשתמש ב-snapshot ליצירת המכונה הווירטואלית:
compute.snapshots.useReadOnlyבקובץ snapshot -
כדי להשתמש בתבנית של הגדרות מכונה ליצירת המכונה הווירטואלית:
compute.instanceTemplates.useReadOnlyבתבנית של הגדרות המכונה -
כדי לציין רשת משנה למכונה הווירטואלית:
compute.subnetworks.useבפרויקט או ברשת המשנה שנבחרה -
כדי לציין כתובת IP סטטית למכונה הווירטואלית:
compute.addresses.useבפרויקט -
כדי להקצות כתובת IP חיצונית למכונה הווירטואלית כשמשתמשים ברשת VPC:
compute.subnetworks.useExternalIpבפרויקט או ברשת המשנה שנבחרה -
כדי להקצות רשת מדור קודם למכונה הווירטואלית:
compute.networks.useבפרויקט -
כדי להקצות כתובת IP חיצונית למכונה הווירטואלית כשמשתמשים ברשת מדור קודם:
compute.networks.useExternalIpבפרויקט -
כדי להגדיר מטא-נתונים של המכונה הווירטואלית:
compute.instances.setMetadataבפרויקט -
כדי להגדיר תגים למכונה הווירטואלית:
compute.instances.setTagsבמכונה הווירטואלית -
כדי להגדיר תוויות למכונה הווירטואלית:
compute.instances.setLabelsבמכונה הווירטואלית -
כדי להגדיר חשבון שירות לשימוש של המכונה הווירטואלית:
compute.instances.setServiceAccountבמכונה הווירטואלית -
כדי ליצור דיסק חדש למכונה הווירטואלית:
compute.disks.createבפרויקט -
כדי לצרף דיסק קיים במצב קריאה-בלבד או במצב קריאה וכתיבה:
compute.disks.useבדיסק -
כדי לצרף דיסק קיים במצב קריאה-בלבד:
compute.disks.useReadOnlyבדיסק
יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
יצירת מכונה וירטואלית עם יחידות GPU מצורפות
כדי ליצור מכונת GPU וירטואלית שמציינת מדיניות למיקום קומפקטי, משתמשים ב-CLI של gcloud או ב-API בארכיטקטורת REST. אחרת, בוחרים באחת מהאפשרויות הבאות:
המסוף
- נכנסים לדף Create an instance במסוף Cloud de Confiance .
כניסה לדף Create an instance - בשדה Name (שם), מזינים שם ייחודי למופע. מוסכמות למתן שמות למשאבים
- בוחרים אזור ותחום שבהם סוגי המכונות עם GPU זמינים. מידע נוסף זמין במאמר בנושא אזורים ותחומים של GPU.
- בקטע machine types (סוגי מכונות), בוחרים באפשרות GPUs (מעבדים גרפיים).
- ברשימה סוג ה-GPU, בוחרים את סוג ה-GPU.
- למכונות וירטואליות שעברו אופטימיזציה למאיץ A2, בוחרים באפשרות
NVIDIA A100 40GBאו באפשרותNVIDIA A100 80GB. - למכונות וירטואליות שעברו אופטימיזציה למאיץ A3, בוחרים באפשרות
NVIDIA H100 80GB
- למכונות וירטואליות שעברו אופטימיזציה למאיץ A2, בוחרים באפשרות
- ברשימה Number of GPUs (מספר יחידות ה-GPU), בוחרים את מספר יחידות ה-GPU.
- ברשימה סוג ה-GPU, בוחרים את סוג ה-GPU.
- מגדירים את דיסק האתחול באופן הבא:
- בקטע מערכת הפעלה ואחסון, לוחצים על שינוי. ייפתח הדף Boot disk configuration (הגדרת דיסק האתחול).
- בדף הגדרות דיסק אתחול, מבצעים את הפעולות הבאות:
- בכרטיסייה תמונות ציבוריות, בוחרים תמונה נתמכת של Compute Engine.
- מציינים גודל של דיסק האתחול של 40 GiB לפחות.
- כדי לאשר את האפשרויות של דיסק האתחול, לוחצים על בחירה.
- מגדירים את מודל הקצאת ההרשאות.
בקטע Advanced options (אפשרויות מתקדמות), בקטע VM provisioning model (מודל הקצאת מכונות וירטואליות), בוחרים באחת מהאפשרויות הבאות:
- Standard: לעומסי עבודה למטרות כלליות.
- התחלה גמישה: לעומסי עבודה לפרק זמן קצר שיכולים להתחיל בזמן גמיש. מידע נוסף זמין במאמר מידע על מכונות וירטואליות עם הפעלה גמישה.
- Spot: לעומסי עבודה (workloads) עמידים בכשלים שאפשר להפסיק אותם. מידע נוסף זמין במאמר בנושא מכונות וירטואליות מסוג Spot.
- אופציונלי: ברשימה On VM termination בוחרים מה יקרה כש-Compute Engine יבצע דחיקה של מכונות וירטואליות מסוג Spot או כשמכונות וירטואליות מסוג Flex-start יגיעו לסוף משך ההפעלה שלהן:
- כדי לעצור את המכונה הווירטואלית במהלך הפסקת הפעולה לפני הזמן, בוחרים באפשרות Stop (ברירת מחדל).
- כדי למחוק את המכונה הווירטואלית במהלך ההפסקה לפני הזמן, בוחרים באפשרות מחיקה.
- כדי ליצור את המכונה הווירטואלית ולהפעיל אותה, לוחצים על Create.
gcloud
כדי ליצור מכונה וירטואלית ולהפעיל אותה, משתמשים בפקודה gcloud compute instances create עם הדגלים הבאים. מכיוון שלא ניתן לבצע מיגרציה פעילה של מכונות וירטואליות עם GPU, צריך להגדיר את הדגל --maintenance-policy לערך TERMINATE.
בדוגמה של הפקודה מוצג גם הדגל --provisioning-model. הדגל הזה מגדיר את מודל ההקצאה של המכונה הווירטואלית. חובה להשתמש בדגל הזה כשיוצרים סוגי מכונות A3 עם פחות מ-8 מעבדי GPU, והערך שלו צריך להיות SPOT או FLEX_START.
בסוגי מכונות A2, הדגל הזה הוא אופציונלי. אם לא מציינים מודל, Compute Engine משתמש במודל ההקצאה הרגיל. מידע נוסף זמין במאמר בנושא מודלים של הקצאת מופעים ב-Compute Engine.
gcloud compute instances create VM_NAME \
--machine-type=MACHINE_TYPE \
--zone=ZONE \
--boot-disk-size=DISK_SIZE \
--image=IMAGE \
--image-project=IMAGE_PROJECT \
--maintenance-policy=TERMINATE \
--provisioning-model=PROVISIONING_MODEL
מחליפים את מה שכתוב בשדות הבאים:
-
VM_NAME: השם של המכונה הווירטואלית החדשה. -
MACHINE_TYPE: סוג מכונה A2 או סוג מכונה A3 עם 1, 2 או 4 יחידות GPU. עבור סוגי מכונות A3, צריך לציין מודל הקצאת משאבים. -
ZONE: האזור של המכונה הווירטואלית. באזור הזה צריכה להיות תמיכה במודל ה-GPU שבחרתם. -
DISK_SIZE: הגודל של דיסק האתחול ב-GiB. מציינים גודל של דיסק האתחול של 40 GiB לפחות. -
IMAGE: קובץ אימג' של המערכת עם תמיכה ב-GPU. כדי להשתמש בתמונה העדכנית ביותר במשפחת תמונות, מחליפים את הדגל--imageבדגל--image-familyומגדירים את הערך שלו למשפחת תמונות שתומכת ב-GPU. לדוגמה:--image-family=rocky-linux-8-optimized-gcp.
-
IMAGE_PROJECT: פרויקט התמונות של Compute Engine שאליו שייכת תמונת מערכת ההפעלה. אם משתמשים בתמונה בהתאמה אישית או בתמונות של מכונות וירטואליות ללמידה עמוקה, צריך לציין את הפרויקט שאליו התמונות האלה שייכות. -
PROVISIONING_MODEL: מודל ההקצאה שמשמש ליצירת המכונה הווירטואלית. אפשר לצייןSPOTאוFLEX_START. אם מסירים את הדגל--provisioning-modelמהפקודה, Compute Engine משתמש במודל הקצאת המשאבים הרגיל. חובה להשתמש בדגל הזה כשיוצרים מכונות וירטואליות מסוג A3 עם פחות מ-8 מעבדי GPU. למידע על דגלים נדרשים למודלים של הקצאת משאבים מסוג Spot או Flex-start, אפשר לעיין במאמרים בנושא יצירת VM במודל Spot או יצירת Flex-start VM.
REST
שולחים בקשת POST אל ה-method instances.insert.
מכיוון שלא ניתן לבצע מיגרציה פעילה של מכונות וירטואליות עם מעבדי GPU, צריך להגדיר את השדה onHostMaintenance לערך TERMINATE.
הבקשה לדוגמה כוללת את השדה provisioningModel בגוף הבקשה. בשדה הזה מגדירים את מודל הקצאת המשאבים למכונה הווירטואלית. חובה למלא את השדה הזה כשיוצרים סוגי מכונות A3 עם פחות מ-8 יחידות GPU, והערך שלו חייב להיות SPOT או FLEX_START. בשביל סוגי מכונות A2, השדה הזה הוא אופציונלי. אם לא מציינים מודל הקצאה, Compute Engine משתמש במודל ההקצאה הרגיל. מידע נוסף זמין במאמר בנושא מודלים של הקצאת מופעים ב-Compute Engine.
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances
{
"machineType": "projects/PROJECT_ID/zones/ZONE/machineTypes/MACHINE_TYPE",
"disks":
[
{
"type": "PERSISTENT",
"initializeParams": {
"diskSizeGb": "DISK_SIZE",
"sourceImage": "SOURCE_IMAGE_URI"
},
"boot": true
}
],
"name": "VM_NAME",
"networkInterfaces":
[
{
"network": "projects/PROJECT_ID/global/networks/NETWORK"
}
],
"scheduling": {
"automaticRestart": true,
"onHostMaintenance": "TERMINATE",
"provisioningModel": "PROVISIONING_MODEL"
}
}
-
VM_NAME: השם של המכונה הווירטואלית החדשה. -
PROJECT_ID: מזהה הפרויקט. -
ZONE: האזור של המכונה הווירטואלית. האזור חייב לתמוך בדגם ה-GPU שבחרתם. -
MACHINE_TYPE: סוג מכונה A2 או סוג מכונה A3 עם 1, 2 או 4 יחידות GPU. עבור סוגי מכונות A3, צריך לציין מודל הקצאת משאבים. -
SOURCE_IMAGE_URI: ה-URI של התמונה או משפחת התמונות הספציפית שרוצים להשתמש בה. לדוגמה:- תמונה ספציפית:
"sourceImage": "projects/rocky-linux-cloud/global/images/rocky-linux-10-optimized-gcp-v20251017" - משפחת תמונות:
"sourceImage": "projects/rocky-linux-cloud/global/images/family/rocky-linux-10-optimized-gcp"
- תמונה ספציפית:
-
DISK_SIZE: הגודל של דיסק האתחול ב-GB. מגדירים את גודל דיסק האתחול ל-40 GB לפחות. -
NETWORK: רשת ה-VPC שבה רוצים להשתמש עבור מכונת ה-VM. אפשר לציין את הערך `default` כדי להשתמש ברשת ברירת המחדל. -
PROVISIONING_MODEL: מודל ההקצאה שמשמש ליצירת המכונה הווירטואלית. אפשר לצייןSPOTאוFLEX_START. אם מסירים את השדהprovisioningModelמגוף הבקשה, מערכת Compute Engine משתמשת במודל ההקצאה הרגיל. חובה למלא את השדה הזה כשיוצרים מכונות וירטואליות מסוג A3 עם פחות מ-8 יחידות GPU. למידע על שדות חובה במודל הקצאת המשאבים מסוג Spot או Flex-start, אפשר לעיין במאמרים בנושא יצירת מכונה וירטואלית (VM) מסוג Spot או יצירת מכונה וירטואלית (VM) מסוג Flex-start.
התקנת מנהלי התקנים
כדי שהמכונה הווירטואלית תוכל להשתמש ב-GPU, צריך להתקין את הדרייבר של ה-GPU במכונה הווירטואלית.
דוגמאות
בדוגמאות האלה, רוב המכונות הווירטואליות נוצרות באמצעות Google Cloud CLI. עם זאת, אפשר גם להשתמש ב- Cloud de Confiance console או ב-REST כדי ליצור את מכונות ה-VM האלה.
בדוגמאות הבאות אפשר לראות איך ליצור VM במודל Spot מסוג A3 באמצעות קובץ אימג' רגיל של מערכת הפעלה, ומכונה וירטואלית מסוג A2 באמצעות קובץ אימג' של Deep Learning VM Images.
יצירת VM במודל Spot מסוג A3 באמצעות משפחת תמונות מערכת ההפעלה Debian 13
בדוגמה הזו נוצרת מכונת VM מסוג Spot (a3-highgpu-1g) A3 באמצעות משפחת קובצי האימג' של מערכת ההפעלה Debian 13.
gcloud compute instances create VM_NAME \
--project=PROJECT_ID \
--zone=ZONE \
--machine-type=a3-highgpu-1g \
--provisioning-model=SPOT \
--maintenance-policy=TERMINATE \
--image-family=debian-13 \
--image-project=debian-cloud \
--boot-disk-size=200GB \
--scopes=https://www.googleapis.com/auth/cloud-platform
מחליפים את מה שכתוב בשדות הבאים:
-
VM_NAME: השם של מופע מכונת ה-VM -
PROJECT_ID: מזהה הפרויקט -
ZONE: האזור של המכונה הווירטואלית
יצירת מכונה וירטואלית מסוג A2 עם מכונת notebook בניהול משתמשים של Vertex AI Workbench
בדוגמה הזו נוצרת מכונה וירטואלית (VM) מסוג A2 Standard (a2-highgpu-1g) באמצעות תמונת Deep Learning VM Images.tf2-ent-2-3-cu110 בדוגמה הזו, מצוינים דגלים אופציונליים כמו גודל דיסק האתחול וההיקף.
הדרך הכי קלה להתחיל היא להשתמש בתמונות DLVM, כי מנהלי ההתקנים (דרייברים) של NVIDIA וספריות CUDA כבר מותקנים בתמונות האלה.
התמונות האלה מספקות גם אופטימיזציות של הביצועים.
יש תמיכה בתמונות הבאות של DLVM עבור NVIDIA A100:
-
common-cu110: דרייבר NVIDIA ו-CUDA מותקנים מראש -
tf-ent-1-15-cu110: מנהל התקן של NVIDIA, CUDA, TensorFlow Enterprise 1.15.3 מותקנים מראש -
tf2-ent-2-1-cu110: מנהל התקן של NVIDIA, CUDA, TensorFlow Enterprise 2.1.1 מותקנים מראש -
tf2-ent-2-3-cu110: מנהל התקן של NVIDIA, CUDA, TensorFlow Enterprise 2.3.1 מותקנים מראש -
pytorch-1-6-cu110: דרייבר NVIDIA, CUDA, Pytorch 1.6
מידע נוסף על תמונות DLVM שזמינות ועל החבילות שמותקנות בתמונות זמין במסמכי התיעוד של Deep Learning VM.
gcloud compute instances create VM_NAME \
--project=PROJECT_ID \
--zone=ZONE \
--machine-type=a2-highgpu-1g \
--maintenance-policy=TERMINATE \
--image-family=tf2-ent-2-3-cu110 \
--image-project=deeplearning-platform-release \
--boot-disk-size=200GB \
--metadata="install-nvidia-driver=True,proxy-mode=project_editors" \
--scopes=https://www.googleapis.com/auth/cloud-platform
מחליפים את מה שכתוב בשדות הבאים:
-
VM_NAME: השם של מופע מכונת ה-VM -
PROJECT_ID: מזהה הפרויקט -
ZONE: האזור של המכונה הווירטואלית
פקודת הדוגמה הקודמת יוצרת גם מכונה של notebook בניהול משתמשים של Vertex AI Workbench עבור המכונה הווירטואלית. כדי לגשת ל-notebook, במסוף Cloud de Confiance , עוברים לדף Vertex AI Workbench > User-managed notebooks.
כניסה לדף User-managed notebooks
Multi-Instance GPU
Multi-Instance GPU (חלוקת GPU למספר מופעים) מחלקת GPU יחיד של NVIDIA A100 או NVIDIA H100 באותה מכונה וירטואלית למספר מופעים עצמאיים של GPU, עד שבעה. הן פועלות בו-זמנית, ולכל אחת מהן יש זיכרון, מטמון ומעבדים מרובי-ליבות משלה. ההגדרה הזו מאפשרת למעבדי ה-GPU NVIDIA A100 ו-H100 לספק איכות שירות (QoS) עקבית עם ניצול גבוה פי 7 בהשוואה לדגמים קודמים של מעבדי GPU.
אפשר ליצור עד שבעה כרטיסי GPU מרובי-מופעים. ב-GPU מסוג A100 40GB, לכל GPU רב-מופע מוקצה זיכרון בנפח 5GB. עם מעבדי ה-GPU A100 80GB, הזיכרון שהוקצה מוכפל ל-10GB לכל אחד. עם מעבדי H100 80GB GPU, לכל GPU מרובה מופעים מוקצה גם זיכרון בנפח 10GB.
מידע נוסף על שימוש ב-GPU מרובה מופעים זמין במדריך למשתמש של NVIDIA בנושא GPU מרובה מופעים.
כדי ליצור כרטיסי GPU מרובי-מופעים, מבצעים את השלבים הבאים:
יוצרים מופע של מכונה וירטואלית שעברה אופטימיזציה לשימוש במאיץ A2 (A100) או A3 (H100).
מתחברים למופע ה-VM. מידע נוסף זמין במאמרים איך מתחברים למכונות וירטואליות של Linux או איך מתחברים למכונות וירטואליות של Windows.
מפעילים את הדרייברים של NVIDIA GPU.
מפעילים את התכונה Multi-Instance GPUs (מעבדי GPU מרובים).
sudo nvidia-smi -mig 1
בודקים את צורות ה-GPU של Multi-Instance שזמינות.
sudo nvidia-smi mig --list-gpu-instance-profiles
הפלט אמור להיראות כך:
+-----------------------------------------------------------------------------+ | GPU instance profiles: | | GPU Name ID Instances Memory P2P SM DEC ENC | | Free/Total GiB CE JPEG OFA | |=============================================================================| | 0 MIG 1g.10gb 19 7/7 9.62 No 16 1 0 | | 1 1 0 | +-----------------------------------------------------------------------------+ | 0 MIG 1g.10gb+me 20 1/1 9.62 No 16 1 0 | | 1 1 1 | +-----------------------------------------------------------------------------+ | 0 MIG 1g.20gb 15 4/4 19.50 No 26 1 0 | | 1 1 0 | +-----------------------------------------------------------------------------+ | 0 MIG 2g.20gb 14 3/3 19.50 No 32 2 0 | | 2 2 0 | +-----------------------------------------------------------------------------+ | 0 MIG 3g.40gb 9 2/2 39.25 No 60 3 0 | | 3 3 0 | +-----------------------------------------------------------------------------+ .......
יוצרים את ה-Multi-Instance GPU (GI) ואת מכונות החישוב (CI) המשויכות שרוצים. כדי ליצור את המקרים האלה, אפשר לציין את השם המלא או המקוצר של הפרופיל, את מזהה הפרופיל או שילוב של שניהם. למידע נוסף, ראו יצירת מכונות וירטואליות עם GPU.
בדוגמה הבאה נוצרות שתי מכונות GPU
MIG 3g.20gbבאמצעות מזהה הפרופיל (9).הדגל
-Cמצוין גם הוא, והוא יוצר את מופעי החישוב המשויכים לפרופיל הנדרש.sudo nvidia-smi mig -cgi 9,9 -C
בודקים ששני כרטיסי ה-GPU עם כמה מופעים נוצרו:
sudo nvidia-smi mig -lgi
בודקים שגם ה-GI וגם ה-CI המתאים נוצרו.
sudo nvidia-smi
הפלט אמור להיראות כך:
+-----------------------------------------------------------------------------+ | NVIDIA-SMI 525.125.06 Driver Version: 525.125.06 CUDA Version: 12.0 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 NVIDIA H100 80G... Off | 00000000:04:00.0 Off | On | | N/A 33C P0 70W / 700W | 39MiB / 81559MiB | N/A Default | | | | Enabled | +-------------------------------+----------------------+----------------------+ | 1 NVIDIA H100 80G... Off | 00000000:05:00.0 Off | On | | N/A 32C P0 69W / 700W | 39MiB / 81559MiB | N/A Default | | | | Enabled | +-------------------------------+----------------------+----------------------+ ...... +-----------------------------------------------------------------------------+ | MIG devices: | +------------------+----------------------+-----------+-----------------------+ | GPU GI CI MIG | Memory-Usage | Vol| Shared | | ID ID Dev | BAR1-Usage | SM Unc| CE ENC DEC OFA JPG| | | | ECC| | |==================+======================+===========+=======================| | 0 1 0 0 | 19MiB / 40192MiB | 60 0 | 3 0 3 0 3 | | | 0MiB / 65535MiB | | | +------------------+----------------------+-----------+-----------------------+ | 0 2 0 1 | 19MiB / 40192MiB | 60 0 | 3 0 3 0 3 | | | 0MiB / 65535MiB | | | +------------------+----------------------+-----------+-----------------------+ ...... +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+
מה השלב הבא?
- מידע נוסף על פלטפורמות GPU
- במכונות וירטואליות מסוג A2, מוסיפים SSD מקומי למכונה הווירטואלית. מכשירי SSD מקומיים מתאימים במיוחד ליחידות GPU כשהאפליקציות שלכם דורשות אחסון עם ביצועים גבוהים. מכונות וירטואליות מסוג A3 כוללות כברירת מחדל SSD מקומי.
- במאמר טיפול באירועי תחזוקה של מארחי GPU מוסבר איך לטפל בתחזוקה של מארחי GPU.