עומסי עבודה של מחשוב עתיר ביצועים (HPC) עם צימוד הדוק משתמשים לעיתים קרובות בממשק העברת הודעות (MPI) כדי לתקשר בין תהליכים ומכונות ב-Compute Engine. אבל כדי ליצור קובץ אימג' של מערכת הפעלה שמותאם לביצועים אופטימליים של MPI,צריך מומחיות במערכות, ידע וזמן נוסף לתחזוקה. כדי להגדיר במהירות סביבה אופטימלית לעומסי העבודה של HPC, אפשר להשתמש בקובץ אימג' של מכונה וירטואלית ל-HPC. Cloud de Confiance by S3NS
תמונת מכונה וירטואלית ל-HPC מבוססת על Rocky Linux 8 או Rocky Linux 9, והיא מותאמת לעומסי עבודה של HPC עם צימוד הדוק. הוא כולל פרמטרים של ליבת המערכת ושל כוונון הרשת שהוגדרו מראש, שנדרשים ליצירת מכונות וירטואליות שמשיגות ביצועים אופטימליים של MPI ב- Cloud de Confiance by S3NS.
לקבלת התוצאות הטובות ביותר, מומלץ לפרוס את תמונת המכונה הווירטואלית של HPC בסוג מכונה מתוך סדרת המכונות המותאמות לצריכת מעבד גבוהה (compute-optimized). סוגי המכונות האלה מיועדים לאפליקציות HPC עם צימוד הדוק. כדי להשתמש ב-Cloud RDMA עם H4D, צריך להשתמש בגרסה 20250917 או בגרסה מאוחרת יותר של תמונת המכונה הווירטואלית של HPC Rocky 8.
אפשר ליצור מכונת VM ל-HPC באמצעות כל אחת מהשיטות שזמינות ליצירת מכונת חישוב. אפשר גם להשתמש במנהל עומסי העבודה Slurm של SchedMD כדי לפרוס אשכול HPC. התמיכה ב-Slurm עדיין לא זמינה לתמונות של מכונות וירטואליות ל-HPC שמבוססות על Rocky Linux 9.
לפני שמתחילים
-
אם עדיין לא עשיתם את זה, תצטרכו להגדיר אימות.
אימות הוא תהליך שבו מאמתים את הזהות שלכם כדי לקבל גישה לממשקי API ולשירותים של Cloud de Confiance by S3NS . כדי להריץ קוד או דוגמאות מסביבת פיתוח מקומית, אפשר לבצע אימות ל-Compute Engine באחת מהדרכים הבאות:
צריך לבחור את הכרטיסייה הרלוונטית לאופן שבו תכננתם להשתמש בדוגמאות בדף הזה:
המסוף
כשמשתמשים במסוף Cloud de Confiance כדי לגשת לשירותים ולממשקי ה-API, לא צריך להגדיר אימות. Cloud de Confiance by S3NS
gcloud
-
התקינו את ה-CLI של Google Cloud ואז היכנסו ל-CLI של gcloud באמצעות הזהות המאוחדת שלכם. אחרי שנכנסתם לחשבון, אתחלו את ה-CLI של Google Cloud באמצעות הפקודה הבאה:
gcloud init
-
- הגדרת אזור ותחום כברירת מחדל
יתרונות
תמונת ה-VM של HPC מספקת את היתרונות הבאים:
- מכונות מחשוב שמוכנות לשימוש בעומסי עבודה של HPC. אין צורך לכוונן את הביצועים באופן ידני, לנהל הפעלות מחדש של מופעי מחשוב או להתעדכן בגרסאות האחרונות של Cloud de Confiance עבור עומסי עבודה של HPC עם צימוד הדוק.
- אופטימיזציות של רשתות לעומסי עבודה עם צימוד הדוק. האופטימיזציות כוללות צמצום של זמן האחזור בהודעות קצרות, מה שמסייע לאפליקציות שמסתמכות במידה רבה על תקשורת ישירה וקבוצתית. אם משתמשים בסדרת מכונות H4D, תמונת Rocky 8 של מכונת ה-HPC הווירטואלית מכילה את מנהלי ההתקנים הנדרשים של Cloud RDMA.
- אופטימיזציות של צריכת מעבד גבוהה לעומסי עבודה של HPC. האופטימיזציות כוללות הפחתה של תנודות המערכת, מה שהופך את הביצועים הגבוהים של צומת יחיד לצפויים יותר.
- ביצועים עקביים שניתנים לשחזור. תקנון תמונות של מערכת ההפעלה מאפשר לכם לקבל ביצועים עקביים וניתנים לשחזור ברמת האפליקציה.
- תאימות משופרת לאפליקציות. התאמה לדרישות ברמת הצומת של מפרט פלטפורמת ה-HPC של Intel מאפשרת רמה גבוהה של יכולת פעולה הדדית בין מערכות.
תכונות של תמונת VM ל-HPC
קובץ האימג' של מכונה וירטואלית ל-HPC מציע כמה תכונות שנועדו לייעל את הביצועים של עומסי עבודה של מחשוב עתיר ביצועים (HPC):
- העדכונים האוטומטיים מושבתים
- שינויים קולקטיביים ב-MPI
- חבילות RPM שהותקנו מראש
העדכונים האוטומטיים מושבתים
עדכונים אוטומטיים עלולים להשפיע לרעה על הביצועים של עומסי עבודה של HPC. אפשר להשבית עדכונים אוטומטיים כשמשתמשים בתמונות של מכונות וירטואליות של HPC. לשם כך, מגדירים את רשומת המטא-נתונים google_disable_automatic_updates לערך TRUE כשיוצרים מופע של Compute. אופן ההגדרה של רשומת המטא-נתונים הזו במהלך יצירת המופע תלוי בכלי שבו משתמשים כדי ליצור את המופע.
לדוגמה, כשמשתמשים בפקודה gcloud compute instances create כדי ליצור מכונת חישוב, צריך לספק את הארגומנט --metadata. מידע נוסף זמין במאמר מידע על מטא-נתונים של מכונות וירטואליות.
רשומת המטא-נתונים google_disable_automatic_updates זמינה באופן הבא:
- תמונות של מכונות וירטואליות של HPC Rocky 9: כל הגרסאות.
- קובצי אימג' של מכונות וירטואליות של HPC Rocky 8: רק בקובצי אימג' שנבנו ב-12 ביולי 2024 או אחריו.
תאריך ה-build (בפורמט
YYYYMMDD) משמש כמספר הגרסה בסוף שמות קובצי האימג'. לדוגמה, קובץ אימג' של מכונה וירטואלית של HPC Rocky 8 שנבנה ב-21 ביולי 2025 נקראhpc-rocky-linux-8-v20250721.
אם משביתים את העדכונים האוטומטיים במכונות H4D, צריך להריץ את הפקודה dnf update במכונה באופן קבוע כדי לשמור על עדכניות של מנהל ההתקן Cloud RDMA.
Intel MPI Library
Google ממליצה להשתמש בסקריפט google_install_intelmpi כדי להתקין את ספריית ממשק העברת ההודעות (MPI) לפני שמריצים משימות MPI ב-Cloud de Confiance by S3NS. מידע נוסף זמין במאמר שימוש ב-Intel MPI 2021.
חבילות RPM שהותקנו מראש
קובץ האימג' של מכונת ה-VM ל-HPC מגיע עם חבילות ה-RPM הבאות שמותקנות מראש:
daos-clientgcc-gfortrangcc-toolset-12Lmoddkmshtophwlochwloc-develinfiniband-diagskernel-develkmod-idpf-irdmalibfabriclibrdmacm-utilslibibverbs-utilslibXtltracenfs-utilsnumactlnumactl-develpapipciutilspdshperfperftestrdma-core-
redhat-lsb-core(HPC VM Rocky 8 בלבד) -
redhat-lsb-cxx(HPC VM Rocky 8 בלבד) rshscreenstracewgetzsh- קבוצת החבילות 'כלי פיתוח'
מדריכים למתחילים
במדריכים האלה מוסבר איך להגדיר מכונת VM שעברה אופטימיזציה ל-HPC. בתהליכים מוסבר איך:
- יצירת מכונת HPC וירטואלית (בלי להגדיר Cloud RDMA)
- ציון מדיניות למיקום קומפקטי כשיוצרים מכונות וירטואליות ל-HPC
- יצירת מכונה וירטואלית ל-HPC שמשתמשת ב-Cloud RDMA
אי אפשר להוסיף Cloud RDMA למכונה וירטואלית (VM) קיימת של HPC, לכן צריך לפעול לפי השלבים המתאימים כשיוצרים את המכונה.
לפני שמתחילים
- כדי להשתמש ב-Google Cloud CLI במדריך למתחילים הזה, קודם צריך להתקין את Google Cloud CLI ולהפעיל אותו:
- בדף לבחירת הפרויקט במסוף Cloud de Confiance , בוחרים פרויקט ב-Cloud de Confiance או יוצרים אותו.
יצירת מכונת וירטואלית של HPC
מומלץ מאוד להשתמש בקובץ האימג' של מכונת ה-HPC עם עומסי העבודה של ה-HPC באמצעות סדרות המכונות הבאות:
לסוגי המכונות בסדרות האלה יש מיפויים קבועים של ליבות וירטואליות לליבות פיזיות, והן חושפות ארכיטקטורת תאים של NUMA למערכת ההפעלה האורחת. שני המאפיינים האלה חשובים מאוד לביצועים של אפליקציות HPC עם צימוד הדוק.
אם אתם יוצרים כמה מכונות וירטואליות של HPC שמחוברות זו לזו, כדאי לפעול לפי ההוראות במאמר בנושא יצירת מכונות וירטואליות של HPC עם מדיניות מיקום קומפקטית כדי להשיג זמן אחזור נמוך ברשת.
המסוף
נכנסים לדף Create an instance במסוף Cloud de Confiance .
אם מוצגת בקשה לעשות זאת, בוחרים פרויקט ולוחצים על המשך. הדף Create an instance מופיע ובו החלונית Machine configuration.
בחלונית Machine configuration:
- בשדה Name, מציינים שם למופע של המחשוב. מידע נוסף זמין במאמר בנושא מוסכמות למתן שמות למשאבים.
אופציונלי: בוחרים אזור ותחום למכונה.
ברירת המחדל של Zone היא Any. אם לא תשנו את ברירת המחדל הזו, Google תבחר בשבילכם באופן אוטומטי אזור על סמך סוג המכונה והזמינות שלה.
לוחצים על הכרטיסייה מכונה וירטואלית מותאמת לצריכת מעבד גבוהה. Cloud de Confiance לאחר מכן, במסוף מוצגות סדרות המכונות שזמינות למשפחת המכונות שבחרתם.
בעמודה Series, בוחרים את סדרת המכונות של ה-VM, לדוגמה C2.
בקטע Machine type, בוחרים את סוג המכונה של ה-VM, למשל c2-standard-60.
בתפריט הניווט (בצד ימין), לוחצים על מערכת הפעלה ואחסון. בשימוש
בחלונית Operating system and storage, מגדירים את דיסק האתחול באופן הבא:
- לוחצים על Change. מופיעה החלונית דיסק אתחול עם הכרטיסייה Public images.
- ברשימה Operating system בוחרים באפשרות HPC VM Image.
- ברשימה Version בוחרים את גרסת מערכת ההפעלה.
- אופציונלי: ברשימה Boot disk type, בוחרים את הסוג של דיסק האתחול.
- אופציונלי: בשדה Size (GB) מציינים את הגודל של דיסק האתחול.
- אופציונלי: לדיסקים של מערכת ההפעלה מסוג Hyperdisk Balanced, מציינים ערכים בשדות Provisioned IOPS ו-Provisioned throughput.
- אופציונלי: כדי לראות אפשרויות הגדרה מתקדמות, מרחיבים את הקטע הצגת הגדרות מתקדמות.
- כדי לאשר את האפשרויות של דיסק האתחול ולחזור לחלונית מערכת ההפעלה והאחסון, לוחצים על בחירה.
בתפריט הניווט, לוחצים על Networking (רשת). בחלונית Networking שמופיעה, מבצעים את הפעולות הבאות:
- עוברים לקטע Firewall.
כדי לאפשר תעבורת HTTP או HTTPS למכונה הווירטואלית, בוחרים באפשרות Allow HTTP traffic או Allow HTTPS traffic.
Compute Engine מוסיף תג רשת למכונה הווירטואלית ויוצר את כלל חומת האש המתאים לתנועה נכנסת, שמאפשר את כל התנועה הנכנסת בפורט
tcp:80(HTTP) או בפורטtcp:443(HTTPS). תג הרשת מקשר את כלל חומת האש למכונה הווירטואלית. מידע נוסף זמין במאמר סקירה כללית על כללים של חומת אש במסמכי התיעוד של Cloud Next Generation Firewall.
אופציונלי: אם בחרתם תמונת מערכת הפעלה שתומכת בתכונות של מכונה וירטואלית מוגנת, אתם יכולים לשנות את ההגדרות של המכונה הווירטואלית המוגנת.
כדי לעשות זאת, בתפריט הניווט, לוחצים על אבטחה. בחלונית Security שמופיעה, אפשר להגדיר את האפשרויות הבאות:
כדי להפעיל את ההפעלה המאובטחת, מסמנים את התיבה הפעלת ההפעלה המאובטחת. ההפעלה המאובטחת מושבתת כברירת מחדל.
כדי להשבית את vTPM, מבטלים את הסימון בתיבת הסימון הפעלת vTPM. vTPM מופעל כברירת מחדל. השבתה של vTPM משביתה גם את ניטור התקינות, כי ניטור התקינות מסתמך על נתונים שנאספים על ידי אתחול מדוד.
כדי להשבית את המעקב אחרי התקינות, מבטלים את הסימון בתיבה הפעלת מעקב אחרי התקינות. המעקב אחרי התקינות מופעל כברירת מחדל.
אופציונלי: מציינים אפשרויות הגדרה אחרות. מידע נוסף מופיע במאמר אפשרויות הגדרה במהלך יצירת מכונה.
אופציונלי: כדי ליצור את מכונת החישוב באמצעות משאבים שמורים, בתפריט הניווט לוחצים על Advanced. בקטע Reservations בוחרים באפשרות Use automatic selection. כדי לנצל את השמירה, מוודאים שמאפייני מכונת החישוב תואמים למאפיינים שצוינו בשמירה.
כדי ליצור ולהפעיל את מכונת ה-HPC הווירטואלית, לוחצים על Create (יצירה).
gcloud
כדי ליצור מכונה וירטואלית ל-HPC, משתמשים בפקודה instances create.
כדי ליצור מכונה וירטואלית (VM) של HPC בלי מדיניות מיקום, משתמשים בפקודה דומה לזו:
gcloud compute instances create INSTANCE_NAME \
--zone=ZONE \
--image-family=IMAGE_FAMILY \
--image-project=cloud-hpc-image-public \
--maintenance-policy=TERMINATE \
--machine-type=MACHINE_TYPE
מחליפים את מה שכתוב בשדות הבאים:
-
INSTANCE_NAME: שם למופע של מכונה וירטואלית ל-HPC. -
ZONE: האזור שבו רוצים ליצור את המכונה. -
IMAGE_FAMILY: משפחת התמונות של התמונה שבה רוצים להשתמש כשיוצרים את מופעי ה-VM. משתמשים ב-hpc-rocky-linux-8לגרסת התמונה האחרונה שמבוססת על Rocky Linux 8, או ב-hpc-rocky-linux-9לגרסת התמונה האחרונה שמבוססת על Rocky Linux 9. -
MACHINE_TYPE: סוג המכונה שבה רוצים להשתמש כשיוצרים את המופע של המכונה הווירטואלית.
אחרי זמן מה, יצירת המכונה הווירטואלית מסתיימת. כדי לוודא את הגדרות המופע ולראות את הסטטוס שלו, מריצים את הפקודה הבאה:
gcloud compute instances describe INSTANCE_NAME
REST
משתמשים ב-method instances.insert כדי ליצור מכונת Compute שמשתמשת בקובץ אימג' של מערכת הפעלה של מכונת HPC:
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances
{
"machineType":"zones/ZONE/machineTypes/MACHINE_TYPE",
"name":"VM_NAME",
"disks":[
{
"initializeParams":{
"sourceImage":"projects/cloud-hpc-image-public/global/images/IMAGE"
},
"boot":true
}
],
"networkInterfaces":[
{
"network":"global/networks/NETWORK_NAME"
}
]
}
מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: מזהה הפרויקט שבו רוצים ליצור את מופע Compute -
ZONE: האזור שבו רוצים ליצור את מכונת ה-Compute -
MACHINE_TYPE: סוג המכונה, מוגדר מראש או מותאם אישית, עבור מכונת המחשוב החדשה -
INSTANCE_NAME: השם של מכונת ה-Compute החדשה -
IMAGE: מציינים אחת מהאפשרויות הבאות:-
IMAGE: גרסה ספציפית של תמונת מכונת VM ל-HPC, לדוגמהhpc-rocky-linux-9-v20260326 -
IMAGE_FAMILY: משפחת התמונות, שהיאhpc-rocky-linux-9אוhpc-rocky-linux-8. בשיטה הזו נוצרת מכונת מחשוב באמצעות קובץ האימג' האחרון של מכונת HPC וירטואלית שלא הוצא משימוש במשפחה שצוינה.
-
-
NETWORK_NAME: רשת ה-VPC שרוצים להשתמש בה עבור מופע Compute. אפשר לצייןdefaultכדי להשתמש ברשת ברירת המחדל.
יצירת מכונות וירטואליות של HPC עם מדיניות למיקום קומפקטי
כדי לקצר את זמן האחזור בין מופעי מחשוב, אפשר ליצור מדיניות למיקום קומפקטי. מדיניות כזו מבטיחה שהמופעים באותו אזור זמינות יהיו קרובים זה לזה.
אם אתם צריכים יותר מכונות וירטואליות ממה שאפשר להכניס למדיניות מיקום קומפקטית אחת, אתם צריכים לחלק את המכונות הווירטואליות לכמה מדיניות מיקום. כדאי להשתמש במספר המינימלי של מדיניות מיקום שמתאים לכל המכונות הווירטואליות.
כדי ליצור מכונות וירטואליות ל-HPC עם מדיניות מיקום קומפקטית, פועלים לפי השלבים הבאים:
מבצעים אחת מהפעולות הבאות:
יצירת מכונה עם מדיניות למיקום קומפקטי.
כדי ליצור מכונה שמציינת מדיניות למיקום קומפקטי, משתמשים בדגלים
--maintenance-policyו---resource-policiesעם הפקודהgcloud compute instances create.
יצירת מכונת VM ל-HPC שמשתמשת ב-Cloud RDMA
כדי ליצור מכונת VM ל-HPC שמשתמשת ב-Cloud RDMA, צריך קודם ליצור לפחות רשת ענן וירטואלי פרטי (VPC) רגילה ורשת Falcon VPC. רשת Falcon VPC משתמשת בפרופיל רשת RDMA שמאפשר תעבורת RDMA בין מופעי מחשוב. הרשת הזו נפרדת מרשת ה-VPC הרגילה שמעבירה תעבורה שאינה RDMA לשירותים אחרים שלCloud de Confiance או לאינטרנט.
כדי ליצור מופע של מכונה וירטואלית ל-HPC שמשתמשת ב-Cloud RDMA, צריך לבצע את המשימות הבאות:
מזהים או יוצרים לפחות שתי רשתות VPC:
- רשת VPC רגילה לתעבורה שעוברת דרך ממשק הרשת gVNIC
- רשת Falcon VPC לתעבורת רשת RDMA
יוצרים מכונה וירטואלית של HPC.
- לתמונת המקור, משתמשים בתמונת מכונה וירטואלית של HPC. התמונה הזו כוללת את מנהלי ההתקנים שנדרשים ל-Cloud RDMA.
במהלך יצירת המכונה, מגדירים לפחות שני ממשקי רשת – אחד שמשתמש במנהל ההתקן gVNIC ואחד שמשתמש במנהל ההתקן IRDMA.
הסבר מפורט יותר זמין במאמר יצירת מופע שמשתמש ב-Cloud RDMA.
אם אתם מתכננים להריץ אפליקציות MPI במופעי מכונות וירטואליות של HPC שמשתמשות ב-Cloud RDMA, אתם צריכים לפעול לפי שלבי ההגדרה של MPI במאמר הגדרה של אפליקציות MPI והרחבתן במכונות וירטואליות מסוג H4D באמצעות Cloud RDMA.
גישה למופע של מכונת VM ל-HPC
אחרי שיוצרים את מופע המכונה הווירטואלית של HPC, הוא מופעל באופן אוטומטי. כדי לגשת למופע, מבצעים אחת מהפעולות הבאות:
המסוף
נכנסים לדף VM instances במסוף Cloud de Confiance .
לוחצים על השם של מכונת החישוב.
בקטע גישה מרחוק, לוחצים על הרשימה הנפתחת הראשונה ובוחרים את אופן הגישה למכונה.
מערכת Compute Engine מעבירה את מפתחות ה-SSH ויוצרת את המשתמש. מידע נוסף זמין במאמר איך מתחברים למכונות וירטואליות של Linux.
gcloud
כדי לגשת למכונה באמצעות SSH, משתמשים בפקודה gcloud compute ssh:
gcloud compute ssh INSTANCE_NAME --zone ZONE
מערכת Compute Engine מעבירה את מפתחות ה-SSH ויוצרת את המשתמש. מידע נוסף זמין במאמר התחברות למכונות וירטואליות של Linux.
הסרת המשאבים
כדי להימנע מחיובים בחשבון Cloud de Confiance by S3NS על המשאבים שבהם השתמשתם במדריכים למתחילים האלה, מוחקים את כל המכונות הווירטואליות של HPC ואת כל המשאבים המצורפים שיצרתם.
המסוף
נכנסים לדף VM instances במסוף Cloud de Confiance .
בוחרים את המופעים שרוצים למחוק.
לוחצים על מחיקה.
בתיבת הדו-שיח, מבצעים את הפעולות הבאות:
אופציונלי: כדי למחוק את המקרים בלי לבצע כיבוי תקין שלהם, או כדי להפסיק כיבוי תקין שמתבצע, מסמנים את תיבת הסימון דילוג על כיבוי תקין (אם רלוונטי).
כדי לאשר, לוחצים על מחיקה.
כדי למחוק את הדיסקים שבהם נעשה שימוש במופעים שנמחקו, עוברים לדף Disks (דיסקים) ומבצעים את השלבים הבאים:
בוחרים את הדיסקים שרוצים למחוק. הדיסקים שאתם בוחרים לא יכולים להכיל ערך בעמודה בשימוש על ידי.
לוחצים על מחיקה.
כדי לאשר, לוחצים על מחיקה.
gcloud
כדי למחוק מכונה וירטואלית אחת או יותר באותו אזור, משתמשים בפקודה gcloud compute instances delete.
כדי לכפות את המחיקה של הדיסקים שמצורפים למופע אחד או יותר, צריך לכלול את הדגל --delete-disks:
gcloud compute instances delete INSTANCE_NAMES \
--delete-disks=DELETE_DISK_TYPE \
--zone=ZONE
מחליפים את מה שכתוב בשדות הבאים:
INSTANCE_NAMES: רשימה של שמות מופרדים ברווחים של מופעים – לדוגמה,instance-01 instance-02 instance-03.
ZONE: האזור שבו נמצאים המופעים.
DELETE_DISK_TYPE: מציינים אחד מהערכים הבאים:- כדי למחוק אחסון מתמיד שמצורף לדיסק אתחול ולא לדיסק אתחול:
all - כדי למחוק רק את האחסון המתמיד של דיסק האתחול המצורף:
boot - כדי למחוק רק אחסון מתמיד שאינו מכיל את מערכת ההפעלה:
data
- כדי למחוק אחסון מתמיד שמצורף לדיסק אתחול ולא לדיסק אתחול:
REST
כדי למחוק מכונה, שולחים בקשת
DELETEאל ה-methodinstances.delete:DELETE https://compute.s3nsapis.fr/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/INSTANCE_NAME
מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: מזהה הפרויקט שבו נמצא המופע. -
ZONE: האזור של המכונה. -
INSTANCE_NAME: שם המכונה.
-
כדי למחוק דיסק שמשמש את המכונה, שולחים בקשת
DELETEאל ה-methoddisks.delete:DELETE https://compute.s3nsapis.fr/compute/v1/projects/PROJECT_ID/zones/ZONE/disks/DISK_NAME
מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: מזהה הפרויקט שבו נמצא הדיסק. -
ZONE: האזור שבו נמצא הדיסק. -
DISK_NAME: שם הדיסק.
-
חוזרים על השלבים הקודמים עבור מקרים או דיסקים נוספים.
הגדרת מופע של מכונה וירטואלית ל-HPC בהתאם לשיטות המומלצות
כדי לשפר את הביצועים של מכונת ה-VM שלכם ל-HPC ולחזות אותם בצורה מדויקת יותר, מומלץ להשתמש בשיטות המומלצות הבאות.
השבתת ריבוי הליכים בו-זמנית
תמונת המכונה הווירטואלית של HPC מאפשרת בו-זמנית ריבוי שרשורים (SMT), שנקרא גם Hyper-Threading במעבדי Intel, כברירת מחדל. השבתת SMT יכולה להפוך את הביצועים לצפויים יותר ולקצר את משך העבודה.
אפשר להשתמש בשיטות הבאות כדי להשבית את SMT:
כדי להשבית את SMT בזמן יצירת מכונה וירטואלית חדשה של HPC, פועלים לפי השלבים ליצירת מכונה וירטואלית של HPC וכוללים את הדגל
--threads-per-core=1.כדי להשבית את SMT במכונה וירטואלית קיימת של HPC, מתחברים למכונה ומריצים את הפקודה הבאה ממערכת ההפעלה של האורח:
sudo google_mpi_tuning --nosmt
מידע נוסף זמין במאמר בנושא הגדרת מספר השרשורים לכל ליבה.
הגדרת gVNIC כסוג ממשק הרשת למכונות C2 ו-C2D
תמונת המכונה הווירטואלית של HPC תומכת ב-Virtio-net וב-Google Virtual NIC (gVNIC) כממשקי רשת וירטואלית. שימוש ב-gVNIC במקום ב-Virtio-net יכול לשפר את יכולת ההתאמה של אפליקציות MPI, כי הוא מספק ביצועים טובים יותר בתקשורת וקצב העברת נתונים גבוה יותר. בנוסף, gVNIC הוא תנאי מוקדם לביצועי רשת ברמה 1 לכל מכונה וירטואלית, שמאפשרים רוחב פס גבוה יותר וקצב העברת נתונים גבוה יותר.
אם יוצרים מכונת C2 או C2D חדשה, כברירת מחדל נעשה שימוש ב-Virtio-net עבור ממשק הרשת הווירטואלי. כדי להשתמש ב-gVNIC, פועלים לפי השלבים ליצירת מכונה וירטואלית של HPC ומבצעים אחת מהפעולות הבאות:
המסוף
כדי להגדיר את gVNIC כממשק הרשת, כשיוצרים את המכונה, בתפריט הניווט, לוחצים על Networking. בחלונית Networking שמופיעה:
- עוברים לקטע Network interfaces.
- בקטע כרטיס רשת, בוחרים באפשרות
gVNIC.
gcloud
כוללים את הדגל --network-interface=nic-type=GVNIC בפקודה gcloud compute instances create.
REST
בבקשת POST ל-method instances.insert, צריך לכלול את "nicType": "GVNIC" במאפיין networkInterfaces.
קובץ האימג' של מכונת ה-VM ל-HPC כולל את מנהל ההתקן gVNIC כ-Dynamic Kernel Module Support (DKMS). מידע נוסף זמין במאמר שימוש ב-Google Virtual NIC.
השבתה של אמצעי ההגנה מפני Meltdown ו-Spectre
תמונת המכונה הווירטואלית של HPC מאפשרת את הפתרונות לבעיות Meltdown ופרצת Spectre כברירת מחדל. במקרים מסוימים, הפתרונות האלה עלולים לגרום לירידה בביצועים שספציפית לעומס העבודה. כדי להשבית את הפתרונות האלה ולקחת את הסיכונים הביטחוניים הכרוכים בכך, צריך לבצע את הפעולות הבאות:
מריצים את הפקודה הבאה במופע ה-HPC:
sudo google_mpi_tuning --nomitigation
מפעילים מחדש את המופע.
שיפור ביצועי הרשת
כדי לשפר את ביצועי הרשת של המופע, צריך להגדיר לפחות אחת מההגדרות הבאות:
הגדרת רוחב פס גבוה יותר. כדי להגדיר רשת Tier_1 למכונות וירטואליות מסוג C2 או C2D, משתמשים בפקודה
gcloud compute instances createכדי ליצור את המכונה. מציינים את הדגל--network-performance-configsכשיוצרים את המכונה. מידע נוסף זמין במאמר בנושא יצירת מכונות וקונטיינרים שמשתמשים ברשת Tier_1.שימוש ב-jumbo frames. כדי לצמצם את תקורה העיבוד של מנות רשת, מומלץ להשתמש בגודל מנה גדול יותר. צריך לאמת גדלים גדולים יותר של מנות נתונים בהתאם לפרטים של האפליקציה. מידע על השימוש בפריימים גדולים ובגדלים של מנות נתונים זמין במדריך ליחידת שידור מקסימלית.
הגדלת מגבלות הזיכרון של TCP. רוחב פס גבוה יותר דורש זיכרון TCP גדול יותר. פועלים לפי השלבים כדי להגדיל את ההגדרות של
tcp_*mem.שימוש בפרופיל של זמן האחזור ברשת. כדאי להעריך את זמן האחזור של האפליקציה ולהפעיל סקר פעיל שמקטין את זמן האחזור בנתיב הקבלה ברשת. משנים את ההגדרות של
net.core.busy_pollו-net.core.busy_readב-/etc/sysctl.conf, או משתמשים ב-tuned-adm.
שימוש ב-Intel MPI 2021
Google ממליצה להשתמש בספריית Intel MPI 2021 להרצת משימות MPI ב-Cloud de Confiance.
ליישומים של MPI יש הרבה פרמטרים פנימיים של הגדרה שיכולים להשפיע על ביצועי התקשורת. הפרמטרים האלה רלוונטיים במיוחד לתקשורת קולקטיבית של MPI, שמאפשרת לציין אלגוריתמים ופרמטרים של הגדרה שיכולים לפעול בצורה שונה מאוד בסביבת Cloud de Confiance.
קובץ האימג' של מכונת ה-HPC כולל כלי, google-hpc-compute, שמתקין את ספריות ה-MPI המומלצות ומשתמש בספקי libfabric מותאמים אישית באמצעות פרוטוקול TCP. Cloud de Confiance
מגבלות
היתרונות של שינוי ההגדרות משתנים מאפליקציה לאפליקציה. במקרים מסוימים, שינוי הגדרה מסוימת עלול להשפיע לרעה על הביצועים. מומלץ לבצע השוואה בין האפליקציות כדי למצוא את ההגדרה היעילה או החסכונית ביותר.
שימוש בכלי google-hpc-compute לתמיכה ב-Intel MPI 2021
הסקריפט google_install_intelmpi הוא הכלי שקשור ל-MPI בכלי השירות google-hpc-compute. הוא עוזר להתקין ולהגדיר את Intel MPI.
כלי העזר google-hpc-compute כלול בתמונת המכונה הווירטואלית של HPC.
התקנה של Intel MPI 2021
כדי להתקין את ספריית Intel MPI במהלך יצירת מכונה וירטואלית חדשה של HPC, פועלים לפי השלבים ליצירת מכונה וירטואלית של HPC וכוללים את הפעולות הבאות כשיוצרים את מכונת החישוב:
--metadata=google_install_intelmpi="--impi_2021"
כדי להתקין את הספרייה במכונת VM קיימת של HPC, מריצים את הפקודה הבאה במכונת החישוב הזו:
sudo google_install_intelmpi --impi_2021 --install_dir=PATH_INSTALL_MPI
מיקום ברירת המחדל של install_dir מוגדר כ-/opt/intel.
Intel MPI Library ושיפורים קולקטיביים של MPI
תמונת מכונת ה-VM של HPC כוללת כוונונים כלליים שמשביתים את ה-hyperthreading, מבצעים אופטימיזציה של הזיכרון, משנים את מגבלות משאבי המערכת ומחילים פרופילים מותאמים אישית.
הסקריפט google_hpc_firstrun מיועד להרצה אוטומטית באתחול הראשון של מכונת VM של HPC.
כחלק מכלי השירות google-hpc-firstrun, מריצים את הסקריפט mpi-tuning כדי לשפר את הביצועים ואת זמן האחזור של מכונת ה-VM של HPC. אפשר להריץ את הסקריפט mpi-tuning.sh כדי להחיל שינויים על מופעי מחשוב ספציפיים.
Usage:
Verify tuning steps: $ mpi_tuning OPTIONS --dryrun
Apply tunings: $ mpi_tuning OPTIONS
Options:
--hpcprofile Install and apply google-hpc-compute tuned profile
Also applies: --tcpmem, --limits
--hpcthroughput Install and apply google-hpc-compute-throughput profile
Also applies: --tcpmem, --limits
--tcpmem Increase memory for TCP
--limits Change the system ulimits
--nosmt Disable simultaneous multi threading
--nofirewalld Disable firewalld
--noselinux Disable SE Linux (reboot required)
--nomitigation Disable CPU vulnerabilities mitigations (reboot required)
--reboot Reboot system after tunings if required
--dryrun Do not execute commands
--verbose Print verbose messages
--help Show help message
יצירת אימג' בהתאמה אישית באמצעות אימג' של מכונה וירטואלית ל-HPC
כדי ליישם את השיטות המומלצות בהיקף גדול, צריך ליצור קובץ אימג' של מערכת הפעלה בהתאמה אישית לשימוש במכונות וירטואליות של HPC. כדי ליצור קובץ אימג' בהתאמה אישית לשימוש ביצירת מכונות וירטואליות של HPC, צריך לבצע את המשימות הבאות:
יוצרים מכונת מחשוב שמשתמשת בקובץ אימג' של מכונה וירטואלית ל-HPC.
יוצרים אימג' בהתאמה אישית באמצעות דיסק האתחול של אימג' המכונה הווירטואלית (VM) של HPC בתור דיסק המקור. אפשר לעשות זאת באמצעות מסוףCloud de Confiance או Google Cloud CLI.
המסוף
נכנסים לדף Images במסוף Cloud de Confiance .
לוחצים על יצירת תמונה.
מציינים שם לתמונה.
בקטע דיסק מקור, בוחרים את השם של דיסק האתחול במופע של מכונה וירטואלית ל-HPC.
בוחרים את שאר המאפיינים של התמונה.
לוחצים על יצירה.
gcloud
יוצרים את האימג' בהתאמה אישית באמצעות הפקודה images create.
gcloud compute images create IMAGE_NAME \
--source-disk=INSTANCE_NAME \
--source-disk-zone=ZONE \
--family=IMAGE_FAMILY \
--storage-location=LOCATION
מחליפים את מה שכתוב בשדות הבאים:
-
IMAGE_NAME: שם לתמונה המותאמת אישית. -
INSTANCE_NAME: השם של מופע ה-VM שלכם ל-HPC. -
ZONE: האזור שבו נמצא המופע של מכונת ה-HPC. -
IMAGE_FAMILY: אופציונלי. משפחת התמונות שאליה התמונה הזו שייכת. -
LOCATION: אופציונלי. האזור שבו רוצים לאחסן את התמונה המותאמת אישית. מיקום ברירת המחדל הוא האזור הרב-אזורי הקרוב ביותר למיקום של דיסק המקור.
תמחור
תמונת המכונה הווירטואלית של HPC זמינה ללא עלות נוספת. מכיוון שתמונת המכונה הווירטואלית של HPC פועלת ב-Compute Engine, יכול להיות שתחויבו על משאבי Compute Engine כמו vCPU, דיסקים וזיכרון.
מידע נוסף זמין במאמר בנושא תמחור ב-Compute Engine.
המאמרים הבאים
- כדאי לעיין בשיטות המומלצות להרצת עומסי עבודה של HPC.
- איך מגדירים ומגדילים את קנה המידה של אפליקציות MPI במכונות וירטואליות H4D באמצעות Cloud RDMA ב-Cloud de Confiance by S3NS
- מידע נוסף על משפחת המכונות מותאמת לצריכת מעבד גבוהה (compute-optimized).
- איך יוצרים אשכולות H4D HPC עם יכולות ניהול אשכולים משופרות
- אם יש לכם משוב או שאתם צריכים תמיכה, אתם יכולים לשלוח אימייל לכתובת hpc-image-feedback@google.com.