יכול להיות שחלק מהמידע בדף הזה או כולו לא רלוונטי ל-Cloud de Confiance by S3NS. פרטים נוספים מופיעים במאמר מה ההבדל מ-Google Cloud.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

סוגי מכונות עם GPU

במאמר הזה מפורטים מודלים של NVIDIA GPU שבהם אפשר להשתמש כדי להאיץ למידת מכונה (ML), עיבוד נתונים ועומסי עבודה עתירי גרפיקה במכונות של Compute Engine. במסמך הזה מפורט גם אילו מעבדי GPU מצורפים מראש לסדרות של מכונות שעברו אופטימיזציה להאצת ביצועים, כמו A4X Max, ‏ A4X, ‏ A4, ‏ A3, ‏ A2, ‏ G4 ו-G2, ואילו מעבדי GPU אפשר לצרף למופעים למטרות כלליות מסוג N1.

במסמך הזה אפשר להשוות בין הביצועים, הזיכרון והתכונות של דגמים שונים של GPU. לסקירה מפורטת יותר של משפחת המכונות שעברו אופטימיזציה להאצה, כולל מידע על פלטפורמות CPU, אפשרויות אחסון ויכולות רשת, וכן כדי למצוא את סוג המכונה הספציפי שמתאים לעומס העבודה שלכם, אפשר לעיין במאמר משפחת מכונות שעברו אופטימיזציה להאצה.

מידע נוסף על GPUs ב-Compute Engine זמין במאמר בנושא מידע על GPUs.

כדי לראות את האזורים והתחומים שבהם אפשר להשתמש ב-GPU ב-Compute Engine, אפשר לעיין במאמר זמינות של אזורים ותחומים ל-GPU.

סקירה כללית

‫Compute Engine מציע סוגים שונים של מכונות שתומכות בעומסי עבודה שונים.

חלק מסוגי המכונות תומכים בתחנות עבודה וירטואליות (vWS) של NVIDIA RTX. כשיוצרים מכונה שמשתמשת ב-NVIDIA RTX Virtual Workstation,‏ Compute Engine מוסיף באופן אוטומטי רישיון vWS. מידע על התמחור של תחנות עבודה וירטואליות מופיע בדף התמחור של GPU.

סוגי מכונות עם GPU
עומסי עבודה של AI ו-ML	גרפיקה והמחשה חזותית	עומסי עבודה אחרים של GPU
סוגי מכונות מסדרה A שעברו אופטימיזציה לשימוש במאיצים מיועדים לעומסי עבודה של מחשוב עתיר ביצועים (HPC), בינה מלאכותית (AI) ולמידת מכונה (ML). מודלים מסדרת A מהדורות המאוחרות יותר מתאימים במיוחד לאימון מוקדם ולשיפור של מודלים בסיסיים שכוללים אשכולות גדולים של מאיצים, בעוד שמודלים מסדרת A2 יכולים לשמש לאימון של מודלים קטנים יותר ולהסקת מסקנות במארח יחיד. בסוגי המכונות האלה, מודל ה-GPU מצורף באופן אוטומטי למופע.	סוגי מכונות מסדרת G שעברו אופטימיזציה לשימוש במאיצים מיועדים לעומסי עבודה כמו עומסי עבודה של סימולציה ב-NVIDIA Omniverse, אפליקציות עתירות גרפיקה, טרנסקוד של סרטונים ושולחנות עבודה וירטואליים. סוגי המכונות האלה תומכים ב-NVIDIA RTX Virtual Workstations (vWS). אפשר להשתמש בסדרת G גם לאימון מודלים קטנים יותר ולהסקת מסקנות במארח יחיד. בסוגי המכונות האלה, מודל ה-GPU מצורף באופן אוטומטי למופע.	בסוגי מכונות למטרות כלליות מסוג N1, למעט N1 עם ליבת מעבד משותפת (`f1-micro` ו-`g1-small`), אפשר לחבר קבוצה נבחרת של דגמי GPU. חלק מדגמי ה-GPU האלה תומכים גם ב-NVIDIA RTX Virtual Workstations‏ (vWS).
‫A4X Max (NVIDIA GB300 Ultra Superchips) (`nvidia-gb300`) ‫A4X (NVIDIA GB200 Superchips) (`nvidia-gb200`) ‫A4 (NVIDIA B200) (`nvidia-b200`) ‫A3 Ultra (NVIDIA H200) (`nvidia-h200-141gb`) ‫A3 Mega (NVIDIA H100) (`nvidia-h100-mega-80gb`) ‫A3 High (NVIDIA H100) (`nvidia-h100-80gb`) ‫A3 Edge (NVIDIA H100) (`nvidia-h100-80gb`) ‫A2 Ultra (NVIDIA A100 80GB) (`nvidia-a100-80gb`) ‫A2 Standard (NVIDIA A100) (`nvidia-a100-40gb`)	‫G4 ‏ (NVIDIA RTX PRO 6000) ‏ (`nvidia-rtx-pro-6000`) ‏ (`nvidia-rtx-pro-6000-vws`) ‫G2 (NVIDIA L4) (`nvidia-l4`) (`nvidia-l4-vws`)	אפשר לצרף את דגמי ה-GPU הבאים לסוגי מכונות וירטואליות לשימוש כללי מסוג N1: ‫NVIDIA T4 (`nvidia-tesla-t4`) (`nvidia-tesla-t4-vws`) ‫NVIDIA P4 (`nvidia-tesla-p4`) (`nvidia-tesla-p4-vws`) ‫NVIDIA V100 (`nvidia-tesla-v100`) ‫NVIDIA P100 (`nvidia-tesla-p100`) (`nvidia-tesla-p100-vws`). תאריך סיום התמיכה ב-NVIDIA P100 מתקרב. אפשר לעיין במאמר סיום התמיכה ב-NVIDIA P100.

סוגי מכונות עם GPU

עומסי עבודה של AI ו-ML גרפיקה והמחשה חזותית עומסי עבודה אחרים של GPU

סוגי מכונות מסדרה A שעברו אופטימיזציה לשימוש במאיצים מיועדים לעומסי עבודה של מחשוב עתיר ביצועים (HPC), בינה מלאכותית (AI) ולמידת מכונה (ML).

מודלים מסדרת A מהדורות המאוחרות יותר מתאימים במיוחד לאימון מוקדם ולשיפור של מודלים בסיסיים שכוללים אשכולות גדולים של מאיצים, בעוד שמודלים מסדרת A2 יכולים לשמש לאימון של מודלים קטנים יותר ולהסקת מסקנות במארח יחיד.

בסוגי המכונות האלה, מודל ה-GPU מצורף באופן אוטומטי למופע.

סוגי מכונות מסדרת G שעברו אופטימיזציה לשימוש במאיצים מיועדים לעומסי עבודה כמו עומסי עבודה של סימולציה ב-NVIDIA Omniverse, אפליקציות עתירות גרפיקה, טרנסקוד של סרטונים ושולחנות עבודה וירטואליים. סוגי המכונות האלה תומכים ב-NVIDIA RTX Virtual Workstations (vWS).

אפשר להשתמש בסדרת G גם לאימון מודלים קטנים יותר ולהסקת מסקנות במארח יחיד.

בסוגי המכונות האלה, מודל ה-GPU מצורף באופן אוטומטי למופע.

בסוגי מכונות למטרות כלליות מסוג N1, למעט N1 עם ליבת מעבד משותפת (f1-micro ו-g1-small), אפשר לחבר קבוצה נבחרת של דגמי GPU. חלק מדגמי ה-GPU האלה תומכים גם ב-NVIDIA RTX Virtual Workstations‏ (vWS).

‫A4X Max (NVIDIA GB300 Ultra Superchips)
(nvidia-gb300)
‫A4X (NVIDIA GB200 Superchips)
(nvidia-gb200)
‫A4 (NVIDIA B200)
(nvidia-b200)
‫A3 Ultra (NVIDIA H200)
(nvidia-h200-141gb)
‫A3 Mega (NVIDIA H100)
(nvidia-h100-mega-80gb)
‫A3 High (NVIDIA H100)
(nvidia-h100-80gb)
‫A3 Edge (NVIDIA H100)
(nvidia-h100-80gb)
‫A2 Ultra (NVIDIA A100 80GB)
(nvidia-a100-80gb)
‫A2 Standard (NVIDIA A100)
(nvidia-a100-40gb)

‫G4 ‏ (NVIDIA RTX PRO 6000)
‏ (nvidia-rtx-pro-6000)
‏ (nvidia-rtx-pro-6000-vws)
‫G2 (NVIDIA L4)
(nvidia-l4)
(nvidia-l4-vws)

אפשר לצרף את דגמי ה-GPU הבאים לסוגי מכונות וירטואליות לשימוש כללי מסוג N1:

‫NVIDIA T4
(nvidia-tesla-t4)
(nvidia-tesla-t4-vws)
‫NVIDIA P4
(nvidia-tesla-p4)
(nvidia-tesla-p4-vws)
‫NVIDIA V100
(nvidia-tesla-v100)
‫NVIDIA P100
(nvidia-tesla-p100)
(nvidia-tesla-p100-vws). תאריך סיום התמיכה ב-NVIDIA P100 מתקרב. אפשר לעיין במאמר סיום התמיכה ב-NVIDIA P100.

אפשר גם להשתמש בכמה סוגים של מכונות GPU ב-AI Hypercomputer. ‫AI Hypercomputer הוא מערכת מחשוב-על שעברה אופטימיזציה לתמיכה בעומסי עבודה של בינה מלאכותית (AI) ולמידת מכונה (ML). מומלץ להשתמש באפשרות הזו כדי ליצור תשתית עם הקצאה צפופה ואופטימיזציה של הביצועים, שכוללת שילובים של Google Kubernetes Engine ‏ (GKE) ומתזמני Slurm.

סדרת מכונות A4X Max ו-A4X

סדרת המכונות A4X Max ו-A4X פועלת בפלטפורמת אקסאסקייל שמבוססת על ארכיטקטורת rack-scale של NVIDIA ועברה אופטימיזציה לעומסי עבודה של אימון ML ו-HPC שדורשים הרבה משאבי מחשוב וזיכרון, ומוגבלים על ידי הרשת. ההבדל העיקרי בין A4X Max לבין A4X הוא ברכיבי ה-GPU והרשת. ‫A4X Max זמין רק כמופעים של Bare Metal, שמספקים גישה ישירה למעבד ולזיכרון של השרת המארח, ללא שכבת ההיפר-ויזור של Compute Engine.

סוגי מכונות A4X Max ‏ (NVIDIA GB300)

סוגי מכונות שעברו אופטימיזציה למאיץ A4X Max משתמשים ב-NVIDIA GB300 Grace Blackwell Ultra Superchips ‏ (nvidia-gb300) והם אידיאליים לאימון מודלים בסיסיים ולמילוי בקשות. סוגי המכונות A4X Max זמינים כמכונות Bare Metal.

‫A4X Max היא פלטפורמה בקנה מידה אקססקייל שמבוססת על NVIDIA GB300 NVL72. לכל מכונה יש שני שקעים עם מעבדי NVIDIA Grace עם ליבות Arm Neoverse V2. יחידות העיבוד המרכזיות האלה מחוברות לארבע יחידות GPU מסוג NVIDIA B300 Blackwell עם תקשורת מהירה בין שבבים (NVLink-C2C).

						מצורפים שבבי NVIDIA GB300 Grace Blackwell Ultra Superchips
סוג המכונה	מספר המעבדים הווירטואליים¹	זיכרון המכונה (GB)	אחסון SSD מקומי מצורף (GiB)	מספר כרטיסי ה-NIC הפיזיים	רוחב הפס המקסימלי ברשת (Gbps)²	מספר יחידות ה-GPU	זיכרון GPU³ ‏ (GB HBM3e)
`a4x-maxgpu-4g-metal`	144	960	‫12,000	6	3,600	4	1,116

‫¹vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
² רוחב הפס המקסימלי של התעבורה היוצאת לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים. מידע נוסף על רוחב פס ברשת זמין במאמר רוחב פס ברשת.
³זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הזיכרון הזה נפרד מהזיכרון של המופע, והוא מיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.

סוג מכונה A4X ‏ (NVIDIA GB200)

סוגי מכונות שעברו אופטימיזציה למאיץ A4X משתמשים ב-Superchips של NVIDIA GB200 Grace Blackwell‏ (nvidia-gb200) והם אידיאליים לאימון מודלים בסיסיים ולמילוי בקשות.

‫A4X היא פלטפורמה בקנה מידה אקססקייל שמבוססת על NVIDIA GB200 NVL72. לכל מכונה יש שני שקעים עם מעבדי NVIDIA Grace עם ליבות Arm Neoverse V2. המעבדים האלה מחוברים לארבע יחידות GPU מסוג NVIDIA B200 Blackwell עם תקשורת מהירה בין שבבים (NVLink-C2C).

						מצורפים שבבי NVIDIA GB200 Grace Blackwell Superchips
סוג המכונה	מספר המעבדים הווירטואליים¹	זיכרון המכונה (GB)	אחסון SSD מקומי מצורף (GiB)	מספר כרטיסי ה-NIC הפיזיים	רוחב הפס המקסימלי ברשת (Gbps)²	מספר יחידות ה-GPU	זיכרון GPU³ ‏ (GB HBM3e)
`a4x-highgpu-4g`	140	884	‫12,000	6	2,000	4	744

סדרת מכונות A4‏ (NVIDIA B200)

לסוגי המכונות A4 שעברו אופטימיזציה להאצה מצורפים מעבדי NVIDIA B200 Blackwell GPU (nvidia-b200), והם אידיאליים לאימון מודלים בסיסיים ולהצגתם.

						מעבדים גרפיים (GPU) מסוג NVIDIA B200 Blackwell מצורפים
סוג המכונה	מספר המעבדים הווירטואליים¹	זיכרון המכונה (GB)	אחסון SSD מקומי מצורף (GiB)	מספר כרטיסי ה-NIC הפיזיים	רוחב הפס המקסימלי ברשת (Gbps)²	מספר יחידות ה-GPU	זיכרון GPU³ ‏ (GB HBM3e)
`a4-highgpu-8g`	224	3,968	‫12,000	10	3,600	8	1,440

‫¹vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
² רוחב הפס המקסימלי של התעבורה היוצאת לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים. מידע נוסף על רוחב פס ברשת זמין במאמר בנושא רוחב פס ברשת.
³זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הזיכרון הזה נפרד מהזיכרון של המופע, והוא מיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.

A3 machine series

למכונות A3 שעברו אופטימיזציה להאצה מצורפים מעבדי GPU מסוג NVIDIA H100 SXM או NVIDIA H200 SXM.

סוג המכונה A3 Ultra‏ (NVIDIA H200)

לסוגי המכונות A3 Ultra מצורפים מעבדים גרפיים (GPU) מסוג NVIDIA H200 SXM (nvidia-h200-141gb), והם מספקים את ביצועי הרשת הגבוהים ביותר בסדרת A3. סוגי המכונות A3 Ultra הם אידיאליים לאימון מודלים בסיסיים ולהצגתם.

						מעבדי GPU של NVIDIA H200 שמצורפים
סוג המכונה	מספר המעבדים הווירטואליים¹	זיכרון המכונה (GB)	אחסון SSD מקומי מצורף (GiB)	מספר כרטיסי ה-NIC הפיזיים	רוחב הפס המקסימלי ברשת (Gbps)²	מספר יחידות ה-GPU	זיכרון GPU³ ‏ (GB HBM3e)
`a3-ultragpu-8g`	224	2,952	‫12,000	10	3,600	8	1128

סוגי המכונות A3 Mega,‏ High ו-Edge‏ (NVIDIA H100)

כדי להשתמש ב-NVIDIA H100 SXM GPUs, יש לכם את האפשרויות הבאות:

‫A3 Mega: סוגי המכונות האלה כוללים כרטיסי GPU מסוג H100 SXM ‏ (nvidia-h100-mega-80gb) והם אידיאליים לעומסי עבודה של אימון והצגה בהיקף גדול.
‫A3 High: סוגי המכונות האלה כוללים מעבדי GPU מסוג H100 SXM ‏ (nvidia-h100-80gb) והם מתאימים גם למשימות אימון וגם למשימות הגשה.
‫A3 Edge: סוגי המכונות האלה כוללים כרטיסי GPU מסוג H100 SXM ‏ (nvidia-h100-80gb), מיועדים במיוחד להצגת תוכן וזמינים בקבוצה מוגבלת של אזורים.

A3 Mega

הערה: כשמבצעים הקצאה של סוגי מכונות a3-megagpu-8g, מומלץ להשתמש באשכול של המכונות האלה ולבצע פריסה באמצעות מתזמן כמו Google Kubernetes Engine‏ (GKE) או Slurm. הוראות מפורטות לגבי כל אחת מהאפשרויות האלה מפורטות במאמרים הבאים:

כדי ליצור אשכול Google Kubernetes Engine, אפשר לעיין במאמר פריסת אשכול A3 Mega באמצעות GKE.
כדי ליצור אשכול Slurm, אפשר לעיין במאמר בנושא פריסת אשכול Slurm מסוג A3 Mega.

						מעבדי GPU מסוג NVIDIA H100 שמצורפים
סוג המכונה	מספר המעבדים הווירטואליים¹	זיכרון המכונה (GB)	אחסון SSD מקומי מצורף (GiB)	מספר כרטיסי ה-NIC הפיזיים	רוחב הפס המקסימלי ברשת (Gbps)²	מספר יחידות ה-GPU	זיכרון GPU³‏ (GB HBM3)
`a3-megagpu-8g`	208	1,872	6,000	9	‫1,800	8	640

A3 High

הערה: כשמקצים מכונות וירטואליות מסוג a3-highgpu-1g,‏ a3-highgpu-2g או a3-highgpu-4g, צריך ליצור מופעים באמצעות מכונות וירטואליות מסוג Spot או מכונות וירטואליות עם הפעלה גמישה. הוראות מפורטות לגבי האפשרויות האלה מופיעות במאמרים הבאים:

כדי ליצור מכונות וירטואליות (VM) זמניות מסוג Spot, מגדירים את מודל הקצאת המשאבים לערך SPOT כשיוצרים מכונה וירטואלית (VM) שעברה אופטימיזציה לשימוש במאיץ.
כדי ליצור מכונות וירטואליות מסוג Flex-start, אפשר להשתמש באחת מהשיטות הבאות:
- יוצרים מכונה וירטואלית עצמאית ומגדירים את מודל הקצאת המשאבים לערך FLEX_START כשיוצרים מכונה וירטואלית שעברה אופטימיזציה לשימוש במאיץ.
- יצירת בקשה לשינוי גודל בקבוצת מופעי מכונה מנוהלים (MIG). הוראות מפורטות זמינות במאמר בנושא יצירת קבוצת מופעים מנוהלת (MIG) עם מכונות וירטואליות של GPU.

						מעבדי GPU מסוג NVIDIA H100 שמצורפים
סוג המכונה	מספר המעבדים הווירטואליים¹	זיכרון המכונה (GB)	אחסון SSD מקומי מצורף (GiB)	מספר כרטיסי ה-NIC הפיזיים	רוחב הפס המקסימלי ברשת (Gbps)²	מספר יחידות ה-GPU	זיכרון GPU³‏ (GB HBM3)
`a3-highgpu-1g`	26	234	750	1	25	1	80
`a3-highgpu-2g`	52	468	1,500	1	50	2	160
`a3-highgpu-4g`	104	936	3,000	1	100	4	320
`a3-highgpu-8g`	208	1,872	6,000	5	1,000	8	640

A3 Edge

						מעבדי GPU מסוג NVIDIA H100 שמצורפים
סוג המכונה	מספר המעבדים הווירטואליים¹	זיכרון המכונה (GB)	אחסון SSD מקומי מצורף (GiB)	מספר כרטיסי ה-NIC הפיזיים	רוחב הפס המקסימלי ברשת (Gbps)²	מספר יחידות ה-GPU	זיכרון GPU³‏ (GB HBM3)
`a3-edgegpu-8g`	208	1,872	6,000	5	‫600: for asia-south1 and northamerica-northeast2 ‫400: לכל שאר אזורי A3 Edge	8	640

סדרת מכונות A2‏ (NVIDIA A100)

למכונות מסוג A2 עם אופטימיזציה להאצה מצורפים מאיצי NVIDIA A100, והן אידיאליות לכוונון עדין של מודלים, למודלים גדולים ולהסקת מסקנות עם אופטימיזציה של העלויות.

סדרת המכונות A2 מציעה שני סוגים:

‫A2 Ultra: לסוגי המכונות האלה מצורפים כונני SSD מקומיים ו-GPU מסוג A100 80GB ‏(nvidia-a100-80gb).
‫A2 Standard: לסוגי המכונות האלה מצורפים GPU מסוג A100 בנפח 40GB (nvidia-tesla-a100). אפשר גם להוסיף דיסקים מסוג Local SSD כשיוצרים מופע A2 Standard. במאמר סוגי מכונות שבהם צריך לבחור מספר של דיסקים מקומיים מסוג SSD מפורט מספר הדיסקים שאפשר לצרף.

A2 Ultra

					מעבדי GPU מסוג NVIDIA A100 בנפח 80GB שצורפו
סוג המכונה	מספר המעבדים הווירטואליים¹	זיכרון המכונה (GB)	אחסון SSD מקומי מצורף (GiB)	רוחב הפס המקסימלי ברשת (Gbps)²	מספר יחידות ה-GPU	זיכרון GPU³ (GB HBM2e)
`a2-ultragpu-1g`	12	170	375	24	1	80
`a2-ultragpu-2g`	24	340	750	32	2	160
`a2-ultragpu-4g`	48	680	1,500	50	4	320
`a2-ultragpu-8g`	96	1,360	3,000	100	8	640

A2 Standard

					מעבדי GPU מסוג NVIDIA A100 בנפח 40GB מצורפים
סוג המכונה	מספר המעבדים הווירטואליים¹	זיכרון המכונה (GB)	יש תמיכה באחסון SSD מקומי	רוחב הפס המקסימלי ברשת (Gbps)²	מספר יחידות ה-GPU	זיכרון GPU‏³ ‏ (GB HBM2)
`a2-highgpu-1g`	12	85	כן	24	1	40
`a2-highgpu-2g`	24	170	כן	32	2	80
`a2-highgpu-4g`	48	340	כן	50	4	160
`a2-highgpu-8g`	96	680	כן	100	8	320
`a2-megagpu-16g`	96	1,360	כן	100	16	640

סדרת מכונות G4‏ (NVIDIA RTX PRO 6000)

סוגי המכונות G4 שעברו אופטימיזציה להאצה משתמשים ב יחידות GPU של NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000) ומתאימים לעומסי עבודה של סימולציה ב-NVIDIA Omniverse, לאפליקציות עתירות גרפיקה, לטרנסקוד של וידאו ולמחשבים וירטואליים. בנוסף, סוגי המכונות G4 מספקים פתרון בעלות נמוכה לביצוע הסקה של מארח יחיד וכוונון מודלים, בהשוואה לסוגי המכונות מסדרת A.

תכונה מרכזית בסדרת G4 היא תמיכה בתקשורת ישירה בין יחידות GPU (P2P) במכונות עם כמה יחידות GPU (g4-standard-96, ‏ g4-standard-192,‏ g4-standard-384). התכונה הזו מאפשרת ליחידות GPU באותו מופע להחליף נתונים ישירות דרך אפיק PCIe, בלי לערב את מארח ה-CPU. מידע נוסף על תקשורת בין כרטיסי GPU מסוג G4 זמין במאמר תקשורת בין כרטיסי GPU מסוג G4.

						מעבדי GPU מסוג NVIDIA RTX PRO 6000 שמצורפים
סוג המכונה	מספר המעבדים הווירטואליים¹	זיכרון המכונה (GB)	נפח ה-Titanium SSD המקסימלי שנתמך (GiB)²	מספר כרטיסי ה-NIC הפיזיים	רוחב פס מקסימלי ברשת (Gbps)³	מספר יחידות ה-GPU	זיכרון GPU‏⁴ (GB GDDR7)
`g4-standard-6`	6	22	0	1	20	1/8	12
`g4-standard-12`	12	45	375	1	20	1/4	24
`g4-standard-24`	24	90	750	1	20	1/2	48
`g4-standard-48`	48	180	1,500	1	50	1	96
`g4-standard-96`	96	360	3,000	1	100	2	192
`g4-standard-192`	192	720	6,000	1	200	4	384
`g4-standard-384`	384	1,440	‫12,000	2	400	8	768

‫¹vCPU מיושם כהיפר-ת'רד יחיד בחומרה באחת מפלטפורמות ה-CPU הזמינות.
² אפשר להוסיף דיסקים של Titanium SSD כשיוצרים מופע G4. במאמר סוגי מכונות שבהם צריך לבחור מספר של דיסקים מקומיים מסוג SSD מפורט מספר הדיסקים שאפשר לצרף.
³ רוחב הפס המקסימלי של תעבורת הנתונים היוצאת (egress) לא יכול להיות גבוה מהמספר שצוין. רוחב הפס בפועל של התעבורה היוצאת תלוי בכתובת ה-IP של היעד ובגורמים אחרים. מידע על רוחב הפס של הרשת
⁴זיכרון GPU הוא הזיכרון במכשיר GPU שאפשר להשתמש בו לאחסון זמני של נתונים. הזיכרון הזה נפרד מהזיכרון של המופע, והוא מיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.

סדרת מכונות G2‏ (NVIDIA L4)

סוגי המכונות שעברו אופטימיזציה להאצת G2 כוללים מעבדי NVIDIA L4 GPU מצורפים, והם אידיאליים להסקת מסקנות עם אופטימיזציה של עלויות, לעומסי עבודה של מחשוב עתיר ביצועים (HPC) ולעומסי עבודה שדורשים גרפיקה עתירת משאבים.

לכל סוג מכונה G2 יש גם זיכרון שמוגדר כברירת מחדל וטווח זיכרון בהתאמה אישית. טווח הזיכרון המותאם אישית מגדיר את נפח הזיכרון שאפשר להקצות למופע לכל סוג מכונה. אפשר גם להוסיף דיסקים מסוג Local SSD כשיוצרים מופע G2. במאמר סוגי מכונות שבהם צריך לבחור מספר של דיסקים מקומיים מסוג SSD מפורט מספר הדיסקים שאפשר לצרף.

						מצורפים GPUs מסוג NVIDIA L4
סוג המכונה	מספר המעבדים הווירטואליים¹	זיכרון ברירת מחדל של מכונה (GB)	טווח זיכרון מותאם אישית של מופע (GB)	‫SSD מקומי מקסימלי נתמך (GiB)	רוחב הפס המקסימלי ברשת (Gbps)²	מספר יחידות ה-GPU	זיכרון GPU‏³ (GB GDDR6)
`g2-standard-4`	4	16	‫16 עד 32	375	10	1	24
`g2-standard-8`	8	32	‫32 עד 54	375	16	1	24
`g2-standard-12`	12	48	‫48 עד 54	375	16	1	24
`g2-standard-16`	16	64	‫54 עד 64	375	32	1	24
`g2-standard-24`	24	96	‫96 עד 108	750	32	2	48
`g2-standard-32`	32	128	‫96 עד 128	375	32	1	24
`g2-standard-48`	48	192	‫192 עד 216	1,500	50	4	96
`g2-standard-96`	96	384	‫384 עד 432	3,000	100	8	192

סדרת מכונות N1

אפשר לצרף את מודלי ה-GPU הבאים לסוג מכונה N1, למעט סוגי מכונות N1 עם ליבות משותפות.

בניגוד לסוגי המכונות בסדרת המכונות שעברו אופטימיזציה למאיצים, סוגי המכונות N1 לא מגיעים עם מספר מוגדר של מעבדי GPU מצורפים. במקום זאת, מציינים את מספר ה-GPU לצירוף כשיוצרים את המכונה.

במכונות N1 עם פחות יחידות GPU, מספר הליבות הווירטואליות מוגבל. באופן כללי, מספר גבוה יותר של מעבדי GPU מאפשר ליצור מכונות עם מספר גבוה יותר של מעבדי CPU וזיכרון וירטואליים.

מעבדי GPU מסוג N1+T4

אפשר לצרף יחידות NVIDIA T4 GPU למכונות וירטואליות למטרות כלליות מסוג N1 עם הגדרות המכונה הווירטואלית הבאות.

סוג המאיץ	מספר יחידות ה-GPU	זיכרון GPU‏¹ (GB GDDR6)	מספר ה-vCPU	זיכרון המכונה (GB)	יש תמיכה באחסון SSD מקומי
‫`nvidia-tesla-t4` או `nvidia-tesla-t4-vws`	1	16	‫1 עד 48	‫1 עד 312	כן
	2	32	‫1 עד 48	‫1 עד 312	כן
	4	64	‫1 עד 96	‫1 עד 624	כן

מעבדי GPU מסוג N1+P4

אפשר לצרף יחידות GPU מסוג NVIDIA P4 למכונות למטרות כלליות מסוג N1 עם הגדרות המכונה הבאות.

סוג המאיץ	מספר יחידות ה-GPU	זיכרון GPU‏¹ (GB GDDR5)	מספר ה-vCPU	זיכרון המכונה (GB)	יש תמיכה ב-SSD מקומי²
‫`nvidia-tesla-p4` או `nvidia-tesla-p4-vws`	1	8	‫1 עד 24	‫1 עד 156	כן
	2	16	‫1 עד 48	‫1 עד 312	כן
	4	32	‫1 עד 96	‫1 עד 624	כן

¹ זיכרון GPU הוא הזיכרון שזמין במכשיר GPU שאפשר להשתמש בו לאחסון נתונים זמני. היא נפרדת מהזיכרון של המופע ומיועדת במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי העבודה הגרפיים שלכם. ‫
‫²במכונות עם יחידות GPU מסוג NVIDIA P4 שמצורפות אליהן, יש תמיכה בדיסקים מקומיים של SSD רק באזורים us-central1-c ו-northamerica-northeast1-b.

‫N1+V100 GPUs

אפשר לצרף יחידות NVIDIA V100 GPU למכונות למטרות כלליות מסוג N1 עם הגדרות המכונה הבאות.

סוג המאיץ	מספר יחידות ה-GPU	זיכרון GPU¹ ‏ (GB HBM2)	מספר ה-vCPU	זיכרון המכונה (GB)	יש תמיכה ב-SSD מקומי²
`nvidia-tesla-v100`	1	16	‫1 עד 12	‫1 עד 78	כן
	2	32	‫1 עד 24	‫1 עד 156	כן
	4	64	‫1 עד 48	‫1 עד 312	כן
	8	128	‫1 עד 96	‫1 עד 624	כן

^‫1זיכרון ה-GPU הוא הזיכרון שזמין במכשיר GPU שאפשר להשתמש בו לאחסון נתונים זמני. הזיכרון הזה נפרד מהזיכרון של המופע, והוא מיועד במיוחד לטיפול בדרישות רוחב הפס הגבוהות יותר של עומסי עבודה עתירי גרפיקה.
²במקרים של מכונות וירטואליות עם יחידות GPU מסוג NVIDIA V100 שמצורפות אליהן, אין תמיכה בדיסקים של SSD מקומי ב-us-east1-c.

מעבדי N1+P100 GPU

אפשר לצרף יחידות GPU מסוג NVIDIA P100 למכונות למטרות כלליות מסוג N1 עם הגדרות המכונה הבאות.

במקרה של חלק מיחידות ה-GPU מסוג NVIDIA P100, המעבד והזיכרון המקסימליים שזמינים לחלק מההגדרות תלויים באזור שבו פועל משאב ה-GPU.

סוג המאיץ	מספר יחידות ה-GPU	זיכרון GPU¹ ‏ (GB HBM2)	תחום (zone)	מספר ה-vCPU	זיכרון המכונה (GB)	יש תמיכה באחסון SSD מקומי
‫`nvidia-tesla-p100` או `nvidia-tesla-p100-vws`	1	16	כל האזורים של P100	1 עד 16	‫1 עד 104	כן
	2	32	כל האזורים של P100	‫1 עד 32	1 עד 208	כן
	4	64	‫`us-east1-c`, `europe-west1-d`, `europe-west1-b`	‫1 עד 64	1 עד 208	כן
	4	64	כל שאר האזורים של P100	‫1 עד 96	‫1 עד 624	כן

תרשים השוואה כללי

בטבלה הבאה מתוארים גודל הזיכרון של ה-GPU, זמינות התכונות וסוגי עומסי העבודה האידיאליים של דגמי GPU שונים ב-Compute Engine.

בטבלה הבאה, הסימן N/A מציין שהמדד לא רלוונטי או לא זמין לדגם ה-GPU הזה.

סוג המכונה (דגם ה-GPU)	זיכרון GPU	Interconnect	השימוש הכי טוב
A4X Max (GB300)	‫279 GB HBM3e @ 8 TBps	NVLink Full Mesh @ 1,800 GBps	אימון והסקת מסקנות מבוזרים בקנה מידה גדול של מודלים גדולים של שפה (LLM) מסוג MoE, מערכות המלצה ו-HPC
A4X (GB200)	‫186GB HBM3e @ 8 TBps	NVLink Full Mesh @ 1,800 GBps	אימון והסקת מסקנות מבוזרים בקנה מידה גדול של מודלים גדולים של שפה (LLM), מערכות המלצה ו-HPC
A4 (B200)	‫180GB HBM3e @ 8 TBps	NVLink Full Mesh @ 1,800 GBps	אימון והסקת מסקנות מבוזרים בקנה מידה גדול של מודלים גדולים של שפה (LLM), מערכות המלצה ו-HPC
A3 Ultra (H200)	‫141 GB HBM3e @ 4.8 TBps	NVLink Full Mesh @ 900 GBps	מודלים גדולים עם טבלאות נתונים עצומות לאימון למידת מכונה, הסקה, HPC,‏ BERT, ‏ DLRM
A3 Mega, A3 High, A3 Edge (H100)	‫80GB HBM3 @ 3.35 TBps	NVLink Full Mesh @ 900 GBps	מודלים גדולים עם טבלאות נתונים עצומות לאימון למידת מכונה, הסקה, HPC,‏ BERT, ‏ DLRM
A2 Ultra (A100 80GB)	‫80GB HBM2e @ 1.9 TBps	NVLink Full Mesh @ 600 GBps	מודלים גדולים עם טבלאות נתונים עצומות לאימון למידת מכונה, הסקה, HPC,‏ BERT, ‏ DLRM
‫A2 Standard (A100 40GB)	‫40GB HBM2 @ 1.6 TBps	NVLink Full Mesh @ 600 GBps	אימון ML, הסקה, HPC
G4 (RTX PRO 6000)	‫96GB GDDR7 עם ECC‏ @ 1,597GBps	לא רלוונטי	הסקת מסקנות של ML, אימון, תחנות עבודה להדמיה מרחוק, המרת קידוד של סרטונים, HPC
G2 (L4)	‫24 GB GDDR6 @ 300 GBps	לא רלוונטי	הסקת מסקנות של ML, אימון, תחנות עבודה להדמיה מרחוק, המרת קידוד של סרטונים, HPC
N1 (T4)	‫16GB GDDR6‏ @ 320 GBps	לא רלוונטי	הסקת מסקנות של למידת מכונה, אימון, תחנות עבודה להדמיה מרחוק, המרת קידוד של סרטונים
N1 (P4)	‫8GB GDDR5‏ @ 192GBps	לא רלוונטי	תחנות עבודה להדמיה מרחוק, הסקת מסקנות של למידת מכונה (ML) והמרת קידוד של סרטונים
N1 (V100)	‫16GB HBM2 @ 900 GBps	NVLink Ring @ 300 GBps	אימון ML, הסקה, HPC
N1 (P100)	‫HBM2 בנפח 16GB‏ ‎ @ 732 GBps	לא רלוונטי	אימון ML, הסקת מסקנות, HPC, תחנות עבודה להדמיה מרחוק

כדי להשוות את המחירים של ה-GPU בדגמים ובאזורים השונים שזמינים ב-Compute Engine, אפשר לעיין במאמר בנושא תמחור GPU.

ביצועים של ליבת Tensor וליבת CUDA רגילה

בקטעים הבאים מפורטים מדדי הביצועים של כל ארכיטקטורת GPU, שמחולקים לליבות CUDA וקטוריות או רגילות ולביצועים של Tensor Core.

Tensor Cores: ביצועי Tensor מתייחסים לתפוקה שמושגת על ידי Tensor Cores מיוחדים. אלה יחידות חומרה ייעודיות (שנקראות לעיתים קרובות יחידות מטריצה) שנועדו להאיץ את הפעולות הגדולות של הכפלה והצטברות של מטריצות, שמהוות את הבסיס ללמידה עמוקה, לאימון ולהסקת מסקנות.

סוג הביצועים הזה מתאים במיוחד ללמידה עמוקה, למודלים גדולים של שפה (LLM) ולכל עומס עבודה שאפשר לבטא כפעולות של מטריצה צפופה. ליבות Tensor מספקות תפוקה גבוהה משמעותית מליבות CUDA עבור אותו סוג נתונים.
ליבות CUDA וקטוריות או רגילות: ביצועים וקטוריים מתייחסים לנתוני התפוקה של ליבות CUDA רגילות. אלה יחידות לשימוש כללי שפועלות באמצעות מודל של הוראה יחידה, ריבוי תהליכים (SIMT), ובדרך כלל מבצעות פעולות על רכיבי נתונים או וקטורים בודדים.

סוג הביצועים הזה מתאים במיוחד לחישובים כלליים, לעיבוד גרפי ולעומסי עבודה שלא כוללים מתמטיקה של מטריצות צפופות.

ארכיטקטורת Blackwell

סוגי המכונות A4X Max,‏ A4X,‏ A4 ו-G4 פועלים על ארכיטקטורת Blackwell של NVIDIA.

Tensor Core

ארכיטקטורת Blackwell של NVIDIA, שמשמשת בסוגי המכונות האלה, כוללת תמיכה ב-Tensor Core לדיוק FP4 ויכולות INT4 מורחבות לביצועים פורצי דרך בהסקת מסקנות של מודלים גדולים.

בטבלה הבאה, הסימן N/A מציין שהמדד לא רלוונטי או לא זמין למודל ה-GPU הזה.

סוג המכונה (דגם ה-GPU)	FP64 (TFLOPS)	TF32 (TFLOPS)¹	‫FP16/32 מעורב (TFLOPS)^1,2	‫INT8 (TFLOPS)¹	‫FP8 (TFLOPS)¹	FP4 (TFLOPS)¹
A4X Max (GB300)	‫1.3	1,250	2,500	5,000	5,000	15,000
A4X (GB200)	45	1,250	2,500	5,000	5,000	10,000
A4 (B200)	40	1,100	2,250	4,500	4,500	9,000
G4 (RTX PRO 6000)	לא רלוונטי	233.9	467.8	935.6	935.6	‪1871.2

‫¹ארכיטקטורת Blackwell תומכת בדלילות מבנית למדדי דיוק של TF32,‏ FP16/32,‏ INT8,‏ FP8 ו-FP4, שיכולה להכפיל את קצב העברת הנתונים של החישובים. ערכי הביצועים בקטע הזה מבוססים על הנחה של כפל מטריצות צפוף – אם משתמשים בדלילות מבנית, הביצועים מוכפלים.
² לאימון בדיוק מעורב, מעבדי GPU שפועלים בארכיטקטורת Blackwell תומכים גם בסוג הנתונים bfloat16.

ליבות CUDA רגילות

סוגי המכונות שמבוססים על ארכיטקטורת Blackwell מספקים פעולות FP64 ו-FP32 עתירות ביצועים לעומסי עבודה תובעניים של HPC ו-AI.

במכשירים A4X Max,‏ A4X ו-A4, פעולות FP16 מואצות על ידי Tensor Cores. ב-G4, הביצועים של FP16 בליבות CUDA רגילות כלולים כי עומסי עבודה של גרפיקה, כמו עיבוד והדמיה, יכולים להפיק תועלת מהדרישות המופחתות של השימוש בזיכרון וברוחב הפס של דיוק FP16, גם כשלא משתמשים בליבות Tensor.

בטבלה הבאה, הסימן N/A מציין שהמדד לא רלוונטי או לא זמין לדגם ה-GPU הזה.

סוג המכונה (דגם ה-GPU)	FP64 (TFLOPS)	FP32 (TFLOPS)	FP16 (TFLOPS)
A4X Max (GB300)	‫1.39¹	45	לא רלוונטי
A4X (GB200)	45	45	לא רלוונטי
A4 (B200)	40	80	לא רלוונטי
G4 (RTX PRO 6000)	1.8	117	117

‫¹הביצועים של FP64 ב-GB300 מופחתים כדי לתת עדיפות לביצועים של FP4.

ארכיטקטורות Hopper,‏ Ada Lovelace ו-Ampere

בסדרת A3 נעשה שימוש בארכיטקטורת Hopper, שכוללת מנועים מיוחדים למודלים של טרנספורמרים. סדרת A2 משתמשת בארכיטקטורת Ampere, ומספקת בסיס מאוזן לאימון ולהסקת מסקנות עם ביצועים גבוהים. סדרת G2 משתמשת בארכיטקטורת Ada Lovelace, שמספקת האצה רב-תכליתית וחסכונית באנרגיה להסקת מסקנות של AI, לטרנסקוד של סרטונים ולעומסי עבודה של גרפיקה.

Tensor Core

הארכיטקטורות Hopper,‏ Ada Lovelace ו-Ampere כוללות ליבות Tensor מתקדמות שמאיצות את סוגי הנתונים TF32,‏ FP16,‏ FP8 ו-INT8, ומספקות תפוקה גבוהה לאימון ולהסקת מסקנות עם דיוק מעורב.

בטבלה הבאה, הסימן N/A מציין שהמדד לא רלוונטי או לא זמין לדגם ה-GPU הזה.

סוג המכונה (דגם ה-GPU)	FP64 (TFLOPS)	TF32 (TFLOPS)¹	‫FP16/32 מעורב (TFLOPS)^1,2	‫INT8 (TOPS)¹	‫FP8 (TFLOPS)¹
A3 Ultra (H200)	67	494.5	989.5	1,979	1,979
A3 Mega/High/Edge (H100)	67	494.5	989.5	1,979	1,979
A2 Ultra (A100 80GB)	19.5	156	312	624	לא רלוונטי
‫A2 Standard (A100 40GB)	19.5	156	312	624	לא רלוונטי
G2 (L4)	לא רלוונטי	60	121	242.5	121

‫¹ארכיטקטורות Hopper,‏ Ada Lovelace ו-Ampere תומכות בדלילות מבנית עבור מדדי דיוק TF32,‏ FP16/32,‏ INT8,‏ INT4 ו-FP8, שיכולה להכפיל את קצב העברת הנתונים של החישובים. ערכי הביצועים בקטע הזה מבוססים על הנחה של כפל מטריצות צפוף – אם משתמשים בדלילות מבנית, הביצועים מוכפלים.‫
² לאימון עם דיוק מעורב, כרטיסי NVIDIA H200,‏ H100,‏ A100 ו-L4 תומכים גם בסוג הנתונים bfloat16.

ליבות CUDA רגילות

סוגי המכונות שמשתמשים בארכיטקטורות Hopper,‏ Ada Lovelace ו-Ampere מספקים פעולות FP64 ו-FP32 עם ביצועים גבוהים לעומסי עבודה תובעניים של HPC ו-AI.

בטבלה הבאה, הסימן N/A מציין שהמדד לא רלוונטי או לא זמין למודל ה-GPU הזה.

סוג המכונה (דגם ה-GPU)	FP64 (TFLOPS)	FP32 (TFLOPS)
A3 Ultra (H200)	34	67
A3 Mega, High, Edge (H100)	34	67
A2 Ultra (A100 80GB)	9.7	לא רלוונטי
‫A2 Standard (A100 40GB)	9.7	לא רלוונטי
G2 (L4)	לא רלוונטי	30.3

ארכיטקטורות Volta,‏ Pascal ו-Turing

סוגי המכונות N1 משתמשים בארכיטקטורות ה-GPU הבאות:

‫Volta (V100)
‫Pascal‏ (P100 ו-P4)
‫Turing ‏ (T4)

Tensor Core

ארכיטקטורות Turing ו-Volta של NVIDIA, שזמינות במופעי N1, מספקות תמיכה ב-Tensor Core לפעולות של דיוק מעורב, INT8 ו-INT4, ומציעות האצה בסיסית להסקת מסקנות של למידה עמוקה.

במעבדי ה-GPU האלה הוצגו הדורות הראשונים של ליבות Tensor, שמשמשות בעיקר לאימון FP16 ולקוונטיזציה של INT8 ו-INT4 בהסקת מסקנות. הטבלה הזו לא כוללת את סוגי המכונות N1 ‏ (P4) ו-N1 ‏ (P100) כי אין להם ליבות Tensor.

בטבלה הבאה, הסימן N/A מציין שהמדד לא רלוונטי או לא זמין לדגם ה-GPU הזה.

סוג המכונה (דגם ה-GPU)	‫FP16/32 מעורב (TFLOPS)	‫INT8 (TOPS)	‫INT4 (TOPS)
N1 (V100)	125	לא רלוונטי	לא רלוונטי
N1 (T4)	65	130	260

ליבות CUDA רגילות

סוגי המכונות שמשתמשים בארכיטקטורות Volta,‏ Pascal ו-Turing מצוידים בליבות CUDA מסוג FP64 ו-FP32 כדי להאיץ מגוון של עומסי עבודה של HPC ו-AI.

בטבלה הבאה, הסימן N/A מציין שהמדד לא רלוונטי או לא זמין לדגם ה-GPU הזה.

סוג המכונה (דגם ה-GPU)	FP64 (TFLOPS)	FP32 (TFLOPS)
N1 (V100)	7.8	15.6
N1 (P100)	5.3	10.6
N1 (T4)	לא רלוונטי	‫8.1
N1 (P4)	0.2	5.5

מה השלב הבא?

מידע נוסף על יחידות GPU ב-Compute Engine
כדאי לבדוק את הזמינות של אזורים ותחומים של GPU.
חשוב לקרוא את המאמר בנושא רוחב פס של הרשת ויחידות GPU.
פרטי התמחור של יחידות GPU