מבוא לצינורות עיבוד נתונים ב-BigQuery
אתם יכולים להשתמש בצינורות של BigQuery כדי לבצע אוטומציה ולייעל את תהליכי הנתונים של BigQuery. בעזרת צינורות עיבוד נתונים, אתם יכולים לתזמן ולהפעיל נכסי קוד ברצף כדי לשפר את היעילות ולצמצם את המאמץ הידני.
סקירה כללית
צינורות העיבוד מבוססים על Dataform.
צינור מכיל נכסי קוד אחד או יותר מהסוגים הבאים:
אתם יכולים להשתמש בצינורות עיבוד נתונים כדי לתזמן את ההפעלה של נכסי קוד. לדוגמה, אפשר לתזמן שאילתת SQL שתפעל מדי יום ותעדכן טבלה עם נתוני המקור העדכניים ביותר, שיוכלו לשמש ליצירת לוח בקרה.
בצינור עם כמה נכסי קוד, מגדירים את רצף ההפעלה. לדוגמה, כדי לאמן מודל של למידת מכונה, אפשר ליצור תהליך עבודה שבו שאילתת SQL מכינה את הנתונים, ואז מחברת מחברת עוקבת מאמנת את המודל באמצעות הנתונים האלה.
יכולות
אלה הפעולות שאפשר לבצע בצינור:
- יצירה של שאילתות SQL או מחברות חדשות או ייבוא של שאילתות או מחברות קיימות לצינור עיבוד נתונים.
- מתזמנים צינור לעיבוד נתונים כך שיפעל אוטומטית בזמן ובתדירות שצוינו.
- שיתוף צינור עם משתמשים או קבוצות שאתם מציינים.
- שיתוף קישור לצינור.
מגבלות
הגבלות על צינורות מכירה:
- צינורות זמינים רק במסוף Cloud de Confiance .
- אחרי שיוצרים צינור, אי אפשר לשנות את האזור שבו הוא מאוחסן.
- אתם יכולים להעניק למשתמשים או לקבוצות גישה לצינור נתונים נבחר, אבל לא תוכלו להעניק להם גישה למשימות ספציפיות בצינור הנתונים.
- אם הפעלה מתוזמנת של צינור לא מסתיימת לפני תחילת ההפעלה המתוזמנת הבאה, ההפעלה המתוזמנת הבאה מדלגת ומסומנת בשגיאה.
הגדרת אזור ברירת המחדל לנכסי קוד
כל נכסי הקוד החדשים בפרויקט Cloud de Confiance משתמשים באזור ברירת מחדל. אחרי שיוצרים את הנכס, אי אפשר לשנות את האזור שלו.
כדי להגדיר את אזור ברירת המחדל לנכסי קוד חדשים:
עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על קבצים כדי לפתוח את דפדפן הקבצים:
לצד שם הפרויקט, לוחצים על View files panel actions (הצגת פעולות בחלונית הקבצים) > Switch code region (החלפת אזור הקוד).
בוחרים את אזור הקוד שרוצים להגדיר כברירת מחדל.
לוחצים על Save.
רשימת האזורים הנתמכים מופיעה במאמר בנושא מיקומים ב-BigQuery Studio.
אזורים נתמכים
כל נכסי הקוד מאוחסנים באזור ברירת המחדל לנכסי קוד. עדכון אזור ברירת המחדל משנה את האזור של כל נכסי הקוד שנוצרו אחרי העדכון.
בטבלה הבאה מפורטים האזורים שבהם אפשר להשתמש בצינורות:
| תיאור האזור | שם האזור | פרטים | |
|---|---|---|---|
| אפריקה | |||
| יוהנסבורג | africa-south1 |
||
| אמריקה | |||
| קולומבוס | us-east5 |
||
| דאלאס | us-south1 |
|
|
| אייווה | us-central1 |
|
|
| לוס אנג'לס | us-west2 |
||
| לאס וגאס | us-west4 |
||
| מונטריאול | northamerica-northeast1 |
|
|
| N. וירג'יניה | us-east4 |
||
| אורגון | us-west1 |
|
|
| סאו פאולו | southamerica-east1 |
|
|
| דרום קרוליינה | us-east1 |
||
| אסיה ואזור האוקיינוס השקט | |||
| הונג קונג | asia-east2 |
||
| ג'קארטה | asia-southeast2 |
||
| מומבאי | asia-south1 |
||
| סיאול | asia-northeast3 |
||
| סינגפור | asia-southeast1 |
||
| סידני | australia-southeast1 |
||
| טייוואן | asia-east1 |
||
| טוקיו | asia-northeast1 |
||
| אירופה | |||
| בלגיה | europe-west1 |
|
|
| פינלנד | europe-north1 |
|
|
| פרנקפורט | europe-west3 |
||
| לונדון | europe-west2 |
|
|
| מדריד | europe-southwest1 |
|
|
| מילאנו | europe-west8 |
||
| הולנד | europe-west4 |
|
|
| טורינו | europe-west12 |
||
| ורשה | europe-central2 |
||
| ציריך | europe-west6 |
|
|
| המזרח התיכון | |||
| דמאם | me-central2 |
||
| דוחה | me-central1 |
||
| תל אביב | me-west1 |
||
מכסות ומגבלות
צינורות נתונים ב-BigQuery כפופים למכסות ולמגבלות של Dataform.
תמחור
הפעלת משימות של צינורות עיבוד נתונים ב-BigQuery כרוכה בחיובים על מחשוב ואחסון ב-BigQuery. מידע נוסף זמין במאמר תמחור ב-BigQuery.
על צינורות שמכילים קובצי notebook חלים חיובים על זמן הריצה ב-Colab Enterprise, בהתאם לסוג המכונה שמוגדר כברירת מחדל. פרטים על התמחור מופיעים במאמר תמחור של Colab Enterprise.
כל הפעלה של צינור נתונים ב-BigQuery מתועדת באמצעות Cloud Logging. הרישום ביומן מופעל אוטומטית להפעלות של צינורות נתונים ב-BigQuery, ויכול להיות שתצברו חיובים ב-Cloud Logging. מידע נוסף זמין במאמר בנושא תמחור של Cloud Logging.