תזמון של תהליכי הכנת נתונים
במאמר הזה נסביר איך לתזמן ולהפעיל באופן ידני משימות של הכנת נתונים ב-BigQuery כדי לבצע אוטומציה של תהליכי העבודה של טרנספורמציה של נתונים. תזמון מבטיח שהנתונים יישארו עדכניים ומדויקים בלי שתצטרכו להתערב ידנית, אבל אתם יכולים גם להריץ את ההכנות של הנתונים באופן ידני כדי לבדוק ולאמת את הטרנספורמציות לפני הפריסה. הכנת הנתונים מבוססת על Dataform.
אפשר לתזמן הכנות של נתונים באמצעות פרטי כניסה של משתמש לחשבון Google או באמצעות חשבון שירות בהתאמה אישית.
לפני שמתחילים
לפני שמתחילים, צריך ליצור הכנת נתונים.
דרישות של VPC Service Controls
אם אתם משתמשים ב-VPC Service Controls כדי להגן על ההכנות של הנתונים, חשוב שתדעו שהרצות מתוזמנות מופעלות על ידי Dataform. כשמגדירים את VPC Service Controls להפעלות מתוזמנות, צריך לוודא שמתקיימות הדרישות הבאות:
- צריך להגדיר את
dataform.restrictGitRemotesהשירות של מדיניות הארגון. - צריך להגביל את הגישה ל-Dataform ול-BigQuery באמצעות אותו גבול גזרה לשירות של VPC Service Controls.
- כדי לאפשר למשתמשים לבצע אימות באמצעות פרטי הכניסה לחשבון Google שלהם כשהם מתזמנים הפעלות או מפעילים אותן באופן ידני, צריך להוסיף את זהויות המשתמשים לכללי הכניסה. מידע נוסף זמין במאמרים בנושא עדכון מדיניות הכניסה והיציאה של גבולות גזרה לשירות והפניה לכללי כניסה.
שלבי הגדרה מפורטים ושיקולי אבטחה זמינים במאמר הגדרת VPC Service Controls ל-Dataform.
התפקידים הנדרשים
כדי לתת הרשאה להכנת נתונים באמצעות חשבון שירות כשמריצים את הכנת הנתונים באופן ידני בסביבת פיתוח או מתזמנים את הכנת הנתונים, צריך להקצות תפקידים לחשבון השירות שבו מתכננים להשתמש להרצת תהליכי הכנת הנתונים. מידע נוסף מופיע במאמר מתן גישה לחשבון השירות של Dataform.
כדי לתזמן הכנת נתונים:
- צריך לבקש מהאדמין להקצות לכם את התפקיד 'משתמש בחשבון שירות' (
roles/iam.serviceAccountUser) בחשבון השירות המותאם אישית. - מקצים את התפקיד 'משתמש בחשבון השירות' (
roles/iam.serviceAccountUser) ואת התפקיד 'יצירת אסימונים בחשבון שירות' (roles/iam.serviceAccountTokenCreator) לסוכן השירות שמוגדר כברירת מחדל ב-Dataform בחשבון השירות המותאם אישית.
כדי לשפר את האבטחה של קביעת פגישות, אפשר לקרוא על הטמעה של הרשאות משופרות לקביעת פגישות.
פיתוח תהליך להכנת הנתונים
במהלך פיתוח של הכנת נתונים, אתם יכולים להריץ את השלבים באופן ידני ולבדוק את הפלט לפני שאתם פורסים את השינויים בסביבת הייצור. אתם יכולים לבדוק את הגרסה הנוכחית שאתם מפתחים על הנתונים שלכם, בזמן ש-BigQuery ממשיך להריץ את הגרסה האחרונה שהופעלה, בהתאם ללוח זמנים. לפני שמריצים את ההעברה, צריך להגדיר את היעד ולתקן את כל שגיאות האימות.
הפעלה ידנית של תהליך להכנת הנתונים בסביבת פיתוח
כדי לבדוק את השלבים של הכנת הנתונים ולאמת את התוצאות בטבלת היעד, מריצים את הכנת הנתונים באופן ידני מעורך הכנת הנתונים:
במסוף Cloud de Confiance , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

אם החלונית הימנית לא מוצגת, לוחצים על הרחבת החלונית הימנית כדי לפתוח אותה.
בחלונית Explorer מרחיבים את הפרויקט ולוחצים על Data preparations.
לוחצים על השם של הכנת הנתונים שרוצים להפעיל.
בסרגל הכלים של עורך הכנת הנתונים, לוחצים על סמל האפשרויות הנוספות > הגדרת חוויית ההפעלה עכשיו.
בקטע אימות, מאשרים את הכנת הנתונים באמצעות פרטי הכניסה של המשתמש בחשבון Google או באמצעות חשבון שירות.
- כדי להשתמש בפרטי הכניסה של המשתמש בחשבון Google (תצוגה מקדימה), בוחרים באפשרות Execute with my user credentials (הפעלה עם פרטי הכניסה של המשתמש). זו האפשרות שמוגדרת כברירת המחדל.
- כדי להשתמש בחשבון שירות, בוחרים באפשרות Execute with selected service account ואז בוחרים חשבון שירות. אם לחשבון השירות נדרשות הרשאות נוספות, מקצים לו את התפקידים הנדרשים על ידי לחיצה על הקצאת הכל.
לוחצים על Save.
מתקנים את שגיאות האימות שמופיעות.
בסרגל הכלים של הכלי לעריכת הכנת נתונים, לוחצים על הפעלה.
בתיבת הדו-שיח Run now (הפעלה עכשיו), לוחצים על Confirm (אישור) כדי לאשר שהפעלה ידנית כזו כותבת נתונים לטבלת יעד, שאולי משמשת גם להפעלות מתוזמנות.
אם בחרתם באפשרות ביצוע עם פרטי הכניסה של המשתמש שלי כשיטת האימות, אתם צריכים לתת הרשאה לחשבון Google (תצוגה מקדימה).
לאחר מכן, ההרצה מבצעת את השלבים ומעלה את הפלט ליעד.
אופציונלי: אחרי שההרצה מסתיימת, אפשר לראות את הפרטים על ההרצה בחלונית Executions (הרצות).
פריסת תהליך להכנת הנתונים
כדי לתזמן הפעלות של גרסה של הכנת הנתונים, צריך קודם לשמור את השינויים ולפרוס אותם. התזמונים תמיד מריצים את הגרסה האחרונה שנפרסה, ומתעלמים מכל שינוי שלא נפרס.
כדי לפרוס הכנת נתונים, פועלים לפי השלבים הבאים:
במסוף Cloud de Confiance , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

בחלונית Explorer מרחיבים את הפרויקט ולוחצים על Data preparations.
לוחצים על השם של הכנת הנתונים שנבחרה.
ייפתח הכלי לעריכת הכנת הנתונים.
בסרגל הכלים של הכלי לעריכת הכנת נתונים, לוחצים על פריסה.
יצירת לוח זמנים
כדי ליצור תזמון להפעלת השלבים של הכנת הנתונים שהוטמעו ולטעינת הנתונים המוכנים לטבלה של היעד, צריך קודם לתזמן הפעלה של הכנת הנתונים. כדי לתזמן את ההפעלה, צריך להגדיר את היעד ולתקן את כל שגיאות האימות.
כדי ליצור לוח זמנים להכנת נתונים:
החלונית Explorer
במסוף Cloud de Confiance , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

בחלונית Explorer מרחיבים את הפרויקט ולוחצים על Data preparations.
לוחצים על השם של הכנת הנתונים שרוצים לתזמן.
בסרגל הכלים של הכלי לעריכת הכנת נתונים, לוחצים על תזמון.
מזינים שם ללוח הזמנים.
בקטע אימות, מאשרים את הכנת הנתונים באמצעות פרטי הכניסה של המשתמש בחשבון Google או חשבון שירות.
- כדי להשתמש בפרטי הכניסה של המשתמש בחשבון Google (תצוגה מקדימה), בוחרים באפשרות Execute with my user credentials (הפעלה עם פרטי הכניסה של המשתמש).
- כדי להשתמש בחשבון שירות, בוחרים באפשרות Execute with selected service account ואז בוחרים חשבון שירות.
קובעים תדירות.
לוחצים על יצירת לוח זמנים. אם בחרתם באפשרות ביצוע עם פרטי הכניסה של המשתמש שלי כשיטת האימות, אתם צריכים לתת הרשאה לחשבון Google (תצוגה מקדימה).
הדף תזמון
נכנסים לדף Scheduling במסוף Cloud de Confiance .
לוחצים על יצירה ובוחרים באפשרות תזמון הכנת נתונים בתפריט.
בחלונית Schedule data preparation (תזמון הכנת נתונים), בשדה Data preparation (הכנת נתונים), בוחרים את הכנת הנתונים שרוצים לתזמן.
בשדה שם לוח הזמנים, מזינים שם ללוח הזמנים.
בקטע אימות, מאשרים את הכנת הנתונים באמצעות פרטי הכניסה של המשתמש בחשבון Google או חשבון שירות.
- כדי להשתמש בפרטי הכניסה של המשתמש בחשבון Google (תצוגה מקדימה), בוחרים באפשרות Execute with my user credentials (הפעלה עם פרטי הכניסה של המשתמש).
- כדי להשתמש בחשבון שירות, בוחרים באפשרות Execute with selected service account ואז בוחרים חשבון שירות.
בקטע Schedule frequency:
- בתפריט חזרה, בוחרים את התדירות של הרצות הכנת הנתונים.
- בשדה At time (בשעה), מזינים את השעה שבה יופעלו התהליכים המתוזמנים של הכנת הנתונים.
- בתפריט אזור זמן, בוחרים את אזור הזמן של לוח הזמנים.
לוחצים על יצירת לוח זמנים. אם בחרתם באפשרות ביצוע עם פרטי הכניסה של המשתמש שלי כשיטת האימות, אתם צריכים לתת הרשאה לחשבון Google (תצוגה מקדימה).
איך נותנים הרשאה לחשבון Google
כדי לאמת את המשאב באמצעות פרטי הכניסה של המשתמש בחשבון Google, צריך להעניק באופן ידני הרשאה לצינורות של BigQuery לקבל את טוקן הגישה לחשבון Google ולגשת לנתוני המקור בשמכם. אתם יכולים לתת אישור ידני באמצעות ממשק תיבת הדו-שיח של OAuth.
צריך לתת הרשאה לצינורות של BigQuery רק פעם אחת.
כדי לבטל את ההרשאה שנתתם:
- עוברים אל הדף של החשבון ב-Google.
- לוחצים על BigQuery Pipelines.
- לוחצים על הסרת הגישה.
כדי לשנות את הבעלים של לוח הזמנים להכנת הנתונים על ידי עדכון פרטי הכניסה, צריך גם אישור ידני אם הבעלים החדש של חשבון Google מעולם לא יצר לוח זמנים.
הפעלה ידנית של תהליך מתוזמן להכנת נתונים
כשמריצים ידנית הכנת נתונים בלוח זמנים נבחר, BigQuery מבצע את הכנת הנתונים פעם אחת, באופן עצמאי מלוח הזמנים.
כדי להפעיל ידנית הכנת נתונים מתוזמנת, פועלים לפי השלבים הבאים:
נכנסים לדף Scheduling במסוף Cloud de Confiance .
לוחצים על השם של לוח הזמנים שנבחר להכנת הנתונים.
בדף פרטי התזמון, לוחצים על הפעלה.
תצוגת לוחות זמנים
אפשר לראות את לוחות הזמנים של הכנת הנתונים בעורך הכנת הנתונים או בדף תזמון.
עורך להכנת נתונים
כדי לראות את לוח הזמנים של הכנת הנתונים, פועלים לפי השלבים הבאים:
- בסרגל הכלים של העורך להכנת נתונים, לוחצים על תזמון הצגת התזמון.
- אופציונלי: כדי לראות את היסטוריית התזמון, לוחצים על הצגת ההרצות הקודמות.
הדף תזמון
כדי לראות את כל התזמונים של הכנת הנתונים בפרויקט, פועלים לפי השלבים הבאים:
נכנסים לדף Scheduling במסוף Cloud de Confiance .
אופציונלי: כדי לראות את היסטוריית ההרצה ואת הפרטים של לוח זמנים מסוים, לוחצים על השם של לוח הזמנים. היסטוריית ההרצות הידניות לא מוצגת.
עריכת לוח זמנים
אפשר לערוך תזמון דרך הכלי לעריכת הכנת נתונים או דרך הדף תזמון.
עורך להכנת נתונים
כדי לערוך לוח זמנים:
- בסרגל הכלים של העורך להכנת נתונים, לוחצים על תזמון הצגת התזמון.
- בתיבת הדו-שיח תזמון הכנת הנתונים, לוחצים על עריכה ומעדכנים את התזמון.
- לוחצים על עדכון לוח הזמנים.
הדף תזמון
כדי לערוך לוח זמנים:
נכנסים לדף Scheduling במסוף Cloud de Confiance .
לוחצים על השם של לוח הזמנים שנבחר להכנת הנתונים.
בדף פרטי התזמון, לוחצים על עריכה.
לוחצים על הצגת לוח הזמנים.
בתיבת הדו-שיח תזמון הכנת הנתונים, לוחצים על עריכה ומעדכנים את התזמון.
לוחצים על עדכון לוח הזמנים.
מחיקת לוח זמנים
כדי למחוק באופן סופי תזמון של הכנת נתונים שנבחרה, פועלים לפי השלבים הבאים:
נכנסים לדף Scheduling במסוף Cloud de Confiance .
בשורה שמכילה את התזמון, לוחצים על more_vert פעולות > מחיקה.