מבוא לעומסי עבודה של AI/ML ב-GKE

בדף הזה יש סקירה כללית של Google Kubernetes Engine ‏ (GKE) לעומסי עבודה של AI/ML. ‫GKE הוא הטמעה מנוהלת של Google של פלטפורמת תזמור הקונטיינרים Kubernetes בקוד פתוח.

Google Kubernetes Engine מספק פלטפורמה גמישה, חסכונית וניתנת להתאמה להרצת כל עומסי העבודה שלכם במכולות, כולל אפליקציות של בינה מלאכותית (AI) ולמידת מכונה (ML). בין אם אתם מאמנים מודלים גדולים של AI, משרתים בקשות הסקה בהיקף גדול או בונים פלטפורמת AI מקיפה, GKE מציע את השליטה והביצועים שאתם צריכים.

הדף הזה מיועד למומחים בתחום הנתונים וה-AI, לארכיטקטים של Cloud, לאופרטורים ולמפתחים שמחפשים פתרון Kubernetes מנוהל, אוטומטי וניתן להרחבה להפעלת עומסי עבודה של AI/ML. מידע נוסף על תפקידים נפוצים זמין במאמר תפקידים נפוצים של משתמשים ומשימות ב-GKE.

איך מתחילים להשתמש בעומסי עבודה של AI/ML ב-GKE

אפשר להתחיל להשתמש ב-GKE תוך דקות באמצעות התוכנית החינמית של GKE, שמאפשרת להתחיל להשתמש ב-Kubernetes בלי לשלם על ניהול האשכולות.

  1. תחילת העבודה ב Cloud de Confiance מסוף

  2. כדאי לנסות את המדריכים לתחילת העבודה הבאים:
    • הסקת מסקנות ב-GKE: פריסת מודל שפה גדול (LLM) של AI ב-GKE להסקת מסקנות באמצעות ארכיטקטורה מוגדרת מראש.
    • אימון ב-GKE: פריסת מודל לאימון AI ב-GKE ואחסון התחזיות ב-Cloud Storage.
  3. מומלץ לקרוא את המאמר מידע על אפשרויות הצריכה של מאיצים לעומסי עבודה של AI/ML, שכולל הנחיות ומשאבים לתכנון ולקבלת מאיצים (GPU ו-TPU) לפלטפורמה שלכם.

תרחישים נפוצים לדוגמה

‫GKE מספק פלטפורמה מאוחדת שיכולה לתמוך בכל עומסי העבודה של ה-AI.

  • יצירת פלטפורמת AI: צוותי פלטפורמה בארגונים יכולים להשתמש ב-GKE כדי ליצור פלטפורמה סטנדרטית עם מספר דיירים, שתענה על מגוון רחב של צרכים.
  • הצגה אונליין עם השהיה נמוכה: למפתחים שיוצרים אפליקציות מבוססות-AI גנרטיבי, ‏ GKE עם Inference Gateway מספק את הניתוב המותאם ואת ההתאמה האוטומטית של גודל המשאבים שנדרשים כדי לספק חוויית משתמש רספונסיבית תוך שליטה בעלויות.

בחירת הפלטפורמה המתאימה לעומס העבודה של AI/ML

‫Cloud de Confiance by S3NS מציעה מגוון מוצרי תשתית AI לתמיכה בתהליך הלמידה של מכונה, החל ממוצרים מנוהלים לחלוטין ועד למוצרים שניתנים להגדרה מלאה. הבחירה בפלטפורמה הנכונה תלויה בצרכים הספציפיים שלכם מבחינת שליטה, גמישות ורמת ניהול.

שיטה מומלצת:

כדאי לבחור ב-GKE כשרוצים שליטה מלאה, ניידות ויכולת ליצור פלטפורמת AI מותאמת אישית עם ביצועים גבוהים.

  • שליטה בגמישות בתשתית: אתם צריכים רמה גבוהה של שליטה בתשתית, להשתמש בצינורות נתונים מותאמים אישית או לבצע התאמות אישיות ברמת ליבת מערכת ההפעלה.
  • אימון והסקת מסקנות בקנה מידה גדול: אתם רוצים לאמן מודלים גדולים מאוד או להפעיל מודלים עם השהיה מינימלית, באמצעות יכולות ההתאמה של GKE והביצועים הגבוהים שלו.
  • יעילות עלויות בהיקף גדול: אתם רוצים לתעדף אופטימיזציה של עלויות באמצעות השילוב של GKE עם מכונות וירטואליות מסוג Spot ומכונות וירטואליות מסוג Flex-start, כדי לנהל את העלויות בצורה יעילה.
  • ניידות ותקנים פתוחים: אתם רוצים להימנע מנעילת ספק ולהריץ את עומסי העבודה שלכם בכל מקום באמצעות Kubernetes, וכבר יש לכם מומחיות ב-Kubernetes או אסטרטגיה מרובת עננים.

אפשר גם לנסות את האפשרויות הבאות:

שירותCloud de Confiance by S3NS מתאים במיוחד ל
Vertex AI פלטפורמה מנוהלת מקצה לקצה שמאיצה את הפיתוח ומפחיתה את הצורך בניהול התשתית. מתאים לצוותים שמתמקדים ב-MLOps ובקיצור הזמן להפקת ערך. מידע נוסף זמין בסרטון בחירה בין GKE באירוח עצמי לבין מודלים של AI באירוח מנוהל ב-Vertex AI.

איך GKE מפעיל עומסי עבודה של AI/ML

‫GKE מציע חבילה של רכיבים ייעודיים שמפשטים ומאיצים כל שלב במחזור החיים של AI/ML, החל מהדרכה בקנה מידה גדול ועד להסקת מסקנות עם השהיה נמוכה.

בתרשים הבא, GKE נמצא בתוך Cloud de Confiance by S3NSויכול להשתמש באפשרויות שונות של אחסון בענן (כמו Cloud Storage FUSE ו-Managed Lustre) ובאפשרויות שונות של תשתית ענן (כמו Cloud TPU ו-Cloud GPU). ‫GKE פועל גם עם תוכנות ועם מסגרות קוד פתוח ללמידה עמוקה (כמו JAX או TensorFlow), לניהול ML (כמו Jupyter או Ray) ולהיקש של LLM (כמו vLLM או NVIDIA Dynamo).
איור 1: GKE כפלטפורמה מנוהלת וניתנת להרחבה לעומסי עבודה של AI/ML.

בטבלה הבאה מפורטות תכונות GKE שתומכות בעומסי העבודה של AI/ML או ביעדים התפעוליים שלכם.

עומס עבודה או פעולה של AI/ML איך GKE תומך בכם תכונות עיקריות
הסקת מסקנות והצגה אופטימיזציה להצגת מודלים של AI באופן גמיש, עם זמן אחזור נמוך, תפוקה גבוהה ויעילות בעלויות.
  • גמישות בהאצה: GKE תומך ב-GPU להסקת מסקנות.
  • GKE Inference Gateway: שער שמודע למודלים ומספק ניתוב חכם ואיזון עומסים במיוחד לעומסי עבודה של הסקת מסקנות מ-AI.
  • GKE Inference Quickstart: כלי שמפשט את ניתוח הביצועים והפריסה על ידי מתן קבוצה של פרופילים עם מדדים למודלים פופולריים של AI.
  • GKE Autopilot: מצב הפעלה של GKE שמבצע אוטומציה של פעולות באשכולות ושל התאמת גודל הקיבולת, וכך מצמצם את התקורה.
אימון ושיפור של המודל השירות מספק את יכולות המדרגיות והתיאום שנדרשות כדי לאמן ביעילות מודלים גדולים מאוד, תוך מזעור העלויות.
  • הפעלה מהירה יותר של צמתים: אופטימיזציה שנועדה במיוחד לעומסי עבודה של GPU, ומקצרת את זמני ההפעלה של הצמתים בעד 80%.
  • Kueue: מערכת תורים של משימות שפועלת ב-Kubernetes ומנהלת הקצאת משאבים, תזמון, ניהול מכסות ותעדוף של עומסי עבודה של אצווה.

המאמרים הבאים

  • מידע על טכניקות להשגת מאיצי מחשוב, כמו מעבדי GPU או TPU, לעומסי עבודה של AI/ML ב-GKE

  • מידע על הסקת מסקנות של מודלים של AI/ML ב-GKE.

  • ב-GKE AI Labs תוכלו לעיין בדוגמאות ניסיוניות לשימוש ב-GKE כדי לקדם את היוזמות שלכם בתחום ה-AI ולמידת המכונה.

  • הצגת פרטים על עומסי העבודה של AI/ML ב- Cloud de Confiance console, כולל משאבים כמו JobSets,‏ RayJobs,‏ PyTorchJobs ו-Deployments להצגת מסקנות.