סקירה כללית של יצירת מכונה עם מעבדי GPU מצורפים

במאמר הזה מוסבר איך ליצור מכונה ב-Compute Engine עם יחידות לעיבוד גרפי (GPU) שמצורפות אליה. אתם יכולים להשתמש במעבדי GPU כדי להאיץ עומסי עבודה ספציפיים, כמו למידת מכונה ועיבוד נתונים.

אפשר גם להשתמש בכמה סוגים של מכונות GPU ב-AI Hypercomputer. ‫AI Hypercomputer הוא מערכת מחשוב-על שעברה אופטימיזציה לתמיכה בעומסי עבודה של בינה מלאכותית (AI) ולמידת מכונה (ML). מומלץ להשתמש באפשרות הזו כדי ליצור תשתית עם הקצאה צפופה ואופטימיזציה של הביצועים, שכוללת שילובים של Google Kubernetes Engine ‏ (GKE) ומתזמני Slurm.

מידע נוסף על GPUs ב-Compute Engine זמין במאמר בנושא מידע על GPUs.

בחירת דגם ה-GPU

רשימת דגמי ה-GPU הזמינים מופיעה במאמר בנושא פלטפורמות GPU. חשוב גם לציין את סוג המכונה שנתמך בדגם ה-GPU שנבחר.

בנוסף, כדאי לבדוק את הפרטים הבאים לגבי כל מודל:

מגבלות

בנוסף למגבלות שחלות על כל המקרים עם יחידות GPU, לכל סדרת מכונות עם יחידות GPU מצורפות יש את המגבלות הבאות:

מופעי A4X Max

מופעי A4X

מכונות A4

  • אפשר לבקש קיבולת רק באמצעות אפשרויות הצריכה הנתמכות לסוג מכונה A4.
  • לא מקבלים הנחות על שימוש קבוע והנחות גמישות תמורת התחייבות לשימוש על מקרים לדוגמה שבהם נעשה שימוש בסוג מכונה A4.
  • אפשר להשתמש בסוג מכונה A4 רק באזורים ותחומים מסוימים.
  • אי אפשר להשתמש בדיסקים לאחסון מתמיד (persistent disks) (אזוריים או של תחום מוגדר). אפשר להשתמש רק ב-Google Cloud Hyperdisk.
  • סוג המכונה A4 זמין רק בפלטפורמת המעבד Emerald Rapids.
  • אי אפשר לשנות את סוג המכונה של מופע לסוג מכונה A4 או מסוג מכונה A4. צריך ליצור מכונה חדשה עם סוג המכונה הזה.
  • סוגי מכונות A4 לא תומכים בדיירות בלעדית.
  • אי אפשר להריץ מערכות הפעלה של Windows בסוג מכונה A4.
  • במקרים של מופעי A4, כשמשתמשים ב-ethtool -S כדי לעקוב אחרי רשתות GPU, מוני יציאות פיזיות שמסתיימים ב-_phy לא מתעדכנים. זו התנהגות צפויה במקרים שבהם נעשה שימוש בארכיטקטורה של פונקציה וירטואלית (VF) של MRDMA. מידע נוסף זמין במאמר פונקציות MRDMA וכלים לניטור רשת.
  • אי אפשר לצרף דיסקים של Hyperdisk ML שנוצרו לפני 4 בפברואר 2026 לסוגי מכונות A4.

מופעי A3 Ultra

מכונות A3 Mega

מכונות A3 High

מכונות A3 Edge

מכונות A2 Standard

מופעי A2 Ultra

  • אפשר לבקש קיבולת רק באמצעות אפשרויות הצריכה הנתמכות של סוג מכונה A2 Ultra.
  • לא תקבלו הנחות על שימוש קבוע והנחות גמישות תמורת התחייבות לשימוש על מקרים לדוגמה שבהם נעשה שימוש בסוג מכונה A2 Ultra.
  • אפשר להשתמש בסוג המכונה A2 Ultra רק באזורים ותחומים מסוימים.
  • סוג המכונה A2 Ultra זמין רק בפלטפורמת Cascade Lake.
  • אם המופע שלכם משתמש בסוג מכונה A2 Ultra, לא תוכלו לשנות את סוג המכונה. אם אתם צריכים להשתמש בסוג מכונה אחר של A2 Ultra, או בכל סוג מכונה אחר, אתם צריכים ליצור מופע חדש.
  • אי אפשר לשנות אף סוג מכונה אחר לסוג מכונה A2 Ultra. אם אתם צריכים מופע שמשתמש בסוג מכונה A2 Ultra, אתם צריכים ליצור מופע חדש.
  • אי אפשר לבצע פורמט מהיר של דיסקים מקומיים מסוג SSD שמצורפים למופעי Windows שמשתמשים בסוגי מכונות A2 Ultra. כדי לפרמט את כונני ה-SSD המקומיים האלה, צריך לבצע פרמוט מלא באמצעות כלי השירות diskpart ולציין format fs=ntfs label=tmpfs.

מופעים מסוג G4

מופעי G2

מכונות N1+GPU

מידע על המגבלות של מכונות N1 עם מעבדי GPU זמין במאמרים תכונות של סדרת מכונות N1 ומעבדי GPU של סדרת מכונות N1.

בחירת מערכת הפעלה

אם אתם משתמשים ב-GPU ללמידת מכונה, אתם יכולים להשתמש באחת ממערכות ההפעלה הבאות:

  • תמונות שעברו אופטימיזציה לעומסי עבודה של AI. אתם יכולים להשתמש בתמונות של Ubuntu ו-Rocky, שזמינות בגרסאות שעברו אופטימיזציה למאיצים עם מנהלי התקנים של NVIDIA ו-CUDA Toolkit שהותקנו מראש. אפשר לקרוא מידע נוסף על תמונות של מערכות הפעלה במסמכי התיעוד של AI Hypercomputer.

  • תמונות VM של למידה עמוקה (Deep Learning) לכל מכונה וירטואלית של Deep Learning יש כלי להתקנת דרייבר של GPU, והיא כוללת חבילות כמו TensorFlow ו-PyTorch. אפשר גם להשתמש במכונה וירטואלית של Deep Learning לעומסי עבודה כלליים של GPU. מידע נוסף על התמונות הזמינות ועל החבילות שמותקנות בתמונות האלה זמין במאמר בחירת תמונה במסמכי התיעוד של Deep Learning VM.

אפשר גם להשתמש בתמונה ציבורית או בתמונה בהתאמה אישית. ברוב המקרים, כדי להשתמש בתמונות ציבוריות או בתמונות בהתאמה אישית, צריך להתקין את מנהלי ההתקנים (דרייברים) של NVIDIA ואת CUDA Toolkit. כדי לזהות אילו דרייברים מתאימים לדגם ה-GPU שלכם, אפשר לעיין במאמר בנושא התקנת דרייברים של GPU.

בדיקת מכסת ה-GPU

כדי להגן על המערכות והמשתמשים ב-Compute Engine, לפרויקטים חדשים יש מכסת GPU גלובלית שמגבילה את המספר הכולל של יחידות GPU שאפשר ליצור בכל אזור נתמך. מידע על מכסת ה-GPU זמין במאמר בנושא מכסת GPU.

אם אתם צריכים מכסה נוספת של GPU, אתם יכולים לבקש הגדלה של המכסה. כשמבקשים מכסת GPU, צריך לבקש מכסה לסוגי ה-GPU שרוצים ליצור בכל אזור, ומכסה גלובלית נוספת למספר הכולל של GPU מכל הסוגים בכל האזורים.

אם לפרויקט שלכם יש היסטוריית חיובים, הוא יקבל מכסה באופן אוטומטי אחרי שתשלחו את הבקשה.

מכונות GPU ומכסות הקצאה שניתנות להפסקה

בדרך כלל, אי אפשר להשתמש במכסות הקצאה שניתנות להפקעה במופעים שמשתמשים במודל הקצאה רגיל. מכסות של מכונות Preemptible VM מיועדות לעומסי עבודה זמניים, ובדרך כלל יש יותר מכסות כאלה. אם בפרויקט שלכם אין מכסה של מכונות וירטואליות שניתנות להפסקת פעולה, ומעולם לא ביקשתם מכסה כזו, כל המכונות הווירטואליות בפרויקט צורכות מכסות הקצאה רגילות.

אם אתם מבקשים מכסת הקצאה שניתנת להפקעה, מופעים שמשתמשים במודל ההקצאה הרגיל צריכים לעמוד בכל הקריטריונים הבאים כדי לצרוך מכסת הקצאה שניתנת להפקעה:

כשמשתמשים בהקצאה עם אפשרות קדימה לעומסי עבודה של GPU שמוגבלים בזמן, אפשר ליהנות גם מזמן ריצה ללא הפרעות וגם מהזמינות הגבוהה של מכסת הקצאה עם אפשרות קדימה. מידע נוסף מופיע במאמר בנושא מכסות של מכונות שאפשר להפסיק.

יצירת מכונה עם מעבדי GPU מצורפים

כדי ליצור אינסטנס עם כרטיסי GPU מצורפים, מבצעים את השלבים הבאים:

  1. יוצרים את המופע. השיטה שבה משתמשים כדי ליצור מופע תלויה בעומס העבודה שרוצים להריץ.

    סוגי מכונות עם GPU
    עומסי עבודה של AI ו-ML גרפיקה והמחשה חזותית עומסי עבודה אחרים של GPU
    סוגי מכונות מסדרה A שעברו אופטימיזציה לשימוש במאיצים מיועדים לעומסי עבודה של מחשוב עתיר ביצועים (HPC), בינה מלאכותית (AI) ולמידת מכונה (ML).

    בסוגי המכונות האלה, מודל ה-GPU מצורף באופן אוטומטי למופע.

    סוגי מכונות מסדרת G שעברו אופטימיזציה לשימוש במאיצים מיועדים לעומסי עבודה כמו עומסי עבודה של סימולציה ב-NVIDIA Omniverse, אפליקציות עתירות גרפיקה, טרנסקוד של סרטונים ומחשבים וירטואליים. סוגי המכונות האלה תומכים ב-NVIDIA RTX Virtual Workstations (vWS).

    אפשר להשתמש בסדרת G גם לאימון מודלים קטנים יותר ולהסקת מסקנות במארח יחיד.

    בסוגי המכונות האלה, מודל ה-GPU מצורף אוטומטית למכונה.

    כדי לבצע אופטימיזציה של עלויות לעומסי עבודה שלא דורשים GPU מלא, אפשר להשתמש בסוגי מכונות G4 עם פחות מ-GPU אחד שמצורף אליהן. סוגי המכונות האלה מגיעים עם 1/2,‏ 1/4 או 1/8 של GPU רגיל.

    בסוגי מכונות למטרות כלליות מסוג N1, למעט N1 עם ליבת מעבד משותפת (f1-micro ו-g1-small), אפשר לצרף קבוצה נבחרת של דגמי GPU. חלק מדגמי ה-GPU האלה תומכים גם ב-NVIDIA RTX Virtual Workstations‏ (vWS).

    עבור עומסי עבודה של AI,‏ ML ו-HPC, בוחרים באחת מהאפשרויות הבאות:

    כדי ליצור מכונת G2 (L4) או G4 (RTX PRO 6000), אפשר לעיין במאמר יצירת מכונת G2 או G4. כדי ליצור מכונת N1 עם מעבדי GPU מצורפים מסוג NVIDIA T4,‏ P4,‏ P100 או V100, אפשר לעיין במאמר בנושא יצירת מכונת N1 עם מעבדי GPU מצורפים.
  2. כדי שהמופע ישתמש ב-GPU, צריך להתקין את הדרייבר של ה-GPU במופע. אם הפעלתם תחנת עבודה וירטואלית של NVIDIA RTX (שנקראה בעבר NVIDIA GRID), צריך להתקין דרייבר לתחנת עבודה וירטואלית.

מה השלב הבא?