ניהול של הכנת נתונים
במאמר הזה מוסבר איך לנהל את ההכנות של נתוני BigQuery, כולל ניהול גישה, ניהול גרסאות, ביצועים ומטא-נתונים. בנוסף, מוסבר במאמר איך לבצע משימות בסיסיות, כמו צפייה בהכנת הנתונים והורדה שלהם.
הכנת הנתונים היא משאבי BigQuery שמבוססים על Dataform. מידע נוסף זמין במאמר סקירה כללית על הכנת נתונים ב-BigQuery.
לפני שמתחילים
- מוודאים שהפעלתם את Gemini for Google Cloud API.
- כדי לנהל מטא-נתונים של הכנת נתונים ב-Knowledge Catalog, צריך לוודא ש-Dataplex API מופעל בפרויקט Cloud de Confiance .
התפקידים הנדרשים
משתמשים שמכינים את הנתונים וחשבונות השירות של Dataform שמריצים את העבודות צריכים את ההרשאות שמוענקות על ידי התפקידים הבאים של ניהול הזהויות והרשאות הגישה (IAM).
קבלת גישת משתמש להכנת נתונים
כדי לקבל את ההרשאות שדרושות להכנת נתונים ב-BigQuery, אתם צריכים לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים:
- BigQuery Studio User (
roles/bigquery.studioUser) בפרויקט - Gemini for Google Cloud User (
roles/cloudaicompanion.user) בפרויקט -
גישה לטבלאות המקור:
BigQuery Data Viewer (
roles/bigquery.dataViewer) בטבלה, במערך הנתונים או בפרויקט -
שיתוף של הכנת נתונים:
בעלים של קוד Dataform (
roles/dataform.codeOwner) בטבלה, במערך הנתונים או בפרויקט
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
מידע נוסף על IAM למערכי נתונים ב-BigQuery זמין במאמר מתן גישה למערך נתונים.יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
קבלת גישה לניהול מטא-נתונים
כדי לקבל את ההרשאות שנדרשות לניהול המטא-נתונים של הכנת הנתונים ב-Knowledge Catalog, צריך לוודא שיש לכם את התפקידים הנדרשים ב-Knowledge Catalog ואת ההרשאה dataform.repositories.get.
מתן גישה לחשבון השירות של Dataform
כדי לוודא שלחשבון השירות של Dataform יש את ההרשאות שנדרשות להכנת נתונים ב-BigQuery, צריך לבקש מהאדמין להקצות לחשבון השירות של Dataform את תפקידי ה-IAM הבאים:
-
גישה לטבלאות המקור:
BigQuery Data Viewer (
roles/bigquery.dataViewer) בטבלה, במערך הנתונים או בפרויקט -
גישה לטבלאות היעד:
BigQuery Data Editor (
roles/bigquery.dataEditor) בטבלה, במערך הנתונים או בפרויקט
יכול להיות שחשבון השירות של Dataform יזדקק להרשאות נוספות, בהתאם לצינור להכנת הנתונים. מידע נוסף זמין במאמר בנושא מתן גישה נדרשת ל-Dataform.
שיקולי אבטחה בהכנת נתונים
נכסי קוד ב-BigQuery מבוססים על Dataform, ולכן חשוב לשים לב להשלכות האבטחה הבאות עבור משתמשים שיש להם גישה לנכסים האלה:
- הגישה לנכסי קוד נקבעת לפי ההרשאות ברמת הפרויקט ב-Dataform. משתמשים עם ההרשאה
dataform.repositories.list– שכלולה בתפקידים רגילים ב-BigQuery כמו BigQuery Job User, BigQuery Studio User ו-BigQuery User – יכולים לראות את כל נכסי הקוד בחלונית Explorer של הפרויקט Cloud de Confiance , בלי קשר לשאלה אם הם יצרו את הנכסים האלה או שהנכסים האלה שותפו איתם. כדי להגביל את החשיפה, אפשר ליצור תפקידים בהתאמה אישית שלא כוללים את ההרשאהdataform.repositories.list. - יכול להיות שמשתמשים שיש להם הרשאת עריכה בנכסים האלה יוכלו לגשת לסודות ששותפו עם סוכן השירות של Dataform. כדי לאבטח את פרטי הכניסה, צריך להגביל את הגישה ליצירה ולעריכה למשתמשים מהימנים, ולהגביל את הסודות שסוכן השירות של Dataform יכול לגשת אליהם. מידע נוסף זמין במאמר גישה לסודות במהלך התקנת חבילה.
מידע נוסף זמין במאמר שיקולי אבטחה לגבי הרשאות ב-Dataform.
צפייה בתהליכים קיימים להכנת נתונים
כדי לראות רשימה של הכנות נתונים קיימות, פועלים לפי השלבים הבאים:
עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

אם החלונית הימנית לא מוצגת, לוחצים על הרחבת החלונית הימנית כדי לפתוח אותה.
בחלונית Explorer מרחיבים את הפרויקט.
לוחצים על הכנת נתונים.
אופטימיזציה של הכנת הנתונים באמצעות עיבוד הנתונים באופן מצטבר
כדי להגדיר את האופן שבו הנתונים המוכנים נכתבים בטבלת היעד, פועלים לפי השלבים הבאים.
במסוף Cloud de Confiance , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

בחלונית Explorer, לוחצים על Data preparations ובוחרים את ההכנה של הנתונים.
בסרגל הכלים של הכנת הנתונים, בוחרים באפשרות עוד > מצב כתיבה.
בוחרים אחת מהאפשרויות. מידע נוסף זמין במאמר בנושא מצב כתיבה.
לוחצים על Save.
רוצה לעזור לנו לשפר את ההצעות?
אתם יכולים לעזור לשפר את ההצעות של Gemini על ידי שיתוף עם Google של נתוני ההנחיות שאתם שולחים לתכונות בגרסת טרום-השקה. כדי לשתף את נתוני ההנחיות:
- פותחים את העורך להכנת נתונים ב-BigQuery.
- בסרגל הכלים של הכנת הנתונים, לוחצים על הגדרות סמל האפשרויות הנוספות.
- בוחרים באפשרות שיתוף נתונים לשיפור Gemini ב-BigQuery.
הגדרות שיתוף הנתונים חלות על הפרויקט כולו, ורק אדמין של הפרויקט עם הרשאות IAM serviceusage.services.enable וserviceusage.services.list יכול להגדיר אותן. מידע נוסף על השימוש בנתונים בתוכנית הבודקים הנאמנים זמין במאמר תוכנית הבודקים הנאמנים של Gemini for Cloud de Confiance .
גרסאות של תהליך הכנת נתונים
אפשר ליצור הכנה של נתונים בתוך מאגר או מחוצה לו. ניהול גרסאות של הכנת נתונים מטופל בצורה שונה בהתאם למיקום של הכנת הנתונים.
ניהול גרסאות של הכנת נתונים במאגרי מידע
מאגרים הם מאגרי Git שנמצאים ב-BigQuery או אצל ספק צד שלישי. אתם יכולים להשתמש בסביבות עבודה במאגרי מידע כדי לבצע ניהול גרסאות על הכנות נתונים. מידע נוסף זמין במאמר בנושא שימוש בניהול גרסאות בקובץ.
ניהול גרסאות של תהליכי הכנת נתונים מחוץ למאגרים
אי אפשר להציג, להשוות או לשחזר גרסאות של הכנת נתונים ב-BigQuery שלא נמצאות במאגרים.
כדי לראות רשימה של גרסאות של הכנת נתונים בסדר כרונולוגי:
עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

בחלונית Explorer, לוחצים על Data preparations ובוחרים את ההכנה של הנתונים.
לוחצים על Version history (היסטוריית גרסאות).
הורדה של תהליך להכנת הנתונים
כדי להוריד קובץ SQLX של הכנת נתונים:
במסוף Cloud de Confiance , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

בחלונית Explorer, מרחיבים את הפרויקט ולוחצים על Data preparations (הכנת נתונים).
לוחצים על השם של הכנת הנתונים שרוצים להוריד.
לוחצים על הורדה. הכנת הנתונים נשמרת בפורמט קובץ SQLX – לדוגמה,
NAME data preparation.dp.sqlx.
העלאה של תהליך להכנת הנתונים
כדי להעלות הכנת נתונים מקובץ SQLX:
במסוף Cloud de Confiance , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

בחלונית Explorer מרחיבים את הפרויקט.
לוחצים על הכנת נתונים ואז על more_vert הצגת פעולות > העלאה להכנת נתונים.
בתיבת הדו-שיח העלאת נתונים להכנה, בוחרים קובץ להעלאה או מזינים את כתובת ה-URL של הנתונים להכנה.
מזינים שם להכנת הנתונים.
בוחרים מיקום להכנת הנתונים שבו המשאבים מנוהלים ומאוחסנים.
לוחצים על Upload.
ניהול מטא-נתונים ב-Knowledge Catalog
ב-Knowledge Catalog אפשר לאחסן ולנהל מטא-נתונים של הכנת נתונים. הכנת הנתונים זמינה כברירת מחדל ב-Knowledge Catalog, ללא צורך בהגדרה נוספת.
אתם יכולים להשתמש ב-Knowledge Catalog כדי לנהל את ההכנות של הנתונים בכל המיקומים של BigQuery. השימוש ב-Knowledge Catalog לצורך ניהול של הכנת נתונים כפוף למכסות ולמגבלות של Knowledge Catalog ולתמחור של Knowledge Catalog.
מערכת Knowledge Catalog מאחזרת באופן אוטומטי את המטא-נתונים הבאים מהכנת הנתונים:
- שם נכס הנתונים
- נכס הורה של נתוני
- מיקום נכס הנתונים
- סוג נכס הנתונים
- פרויקט Cloud de Confiance מתאים
ב-Knowledge Catalog, הכנות הנתונים נרשמות כרשומות עם ערכי הרשומות הבאים:
- קבוצת רשומות של מערכת
- קבוצת רשומות המערכת להכנת נתונים היא
@dataform. כדי לראות את הפרטים של רשומות הכנת הנתונים ב-Knowledge Catalog, צריך להציג אתdataformקבוצת רשומות המערכת. הוראות להצגת רשימה של כל הרשומות בקבוצת רשומות מופיעות במאמר הצגת פרטים של קבוצת רשומות במסמכי התיעוד של Knowledge Catalog. - סוג רשומה של מערכת
- סוג הרשומה במערכת להכנת נתונים הוא
dataform-code-asset. כדי לראות את הפרטים של הכנת הנתונים, צריך להציג אתdataform-code-assetסוג רשומת המערכת, לסנן את התוצאות באמצעות מסנן מבוסס-היבטים ולהגדיר את השדהtypeבתוך ההיבטdataform-code-assetלערךDATA_PREPARATION. לאחר מכן, בוחרים רשומה של הכנת הנתונים שנבחרה. הוראות להצגת פרטים של סוג רשומה נבחר מופיעות במאמר הצגת פרטים של סוג רשומה במסמכי Knowledge Catalog. הוראות להצגת פרטים של רשומה נבחרת מופיעות במאמר הצגת פרטים של רשומה במסמכי Knowledge Catalog. - סוג ההיבט של המערכת
- סוג ההיבט של המערכת להכנת נתונים הוא
dataform-code-asset. כדי לספק הקשר נוסף להכנת נתונים ב-Knowledge Catalog על ידי הוספת הערות לרשומות של הכנת נתונים עם היבטים, להציג את סוג ההיבטdataform-code-asset, לסנן את התוצאות באמצעות מסנן מבוסס-היבטים ולהגדיר את השדהtypeבתוך ההיבטdataform-code-assetלערךDATA_PREPARATION. הוראות להוספת הערות עם היבטים לרשומות מפורטות במאמר ניהול היבטים והעשרת מטא-נתונים במסמכי התיעוד של Knowledge Catalog. - סוג
- הסוג של לוחות ציור של נתונים הוא
DATA_PREPARATION. הסוג הזה מאפשר לכם לסנן את ההכנות של הנתונים בdataform-code-assetסוג הרשומה במערכת ובdataform-code-assetסוג ההיבט באמצעות השאילתהaspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATIONבמסנן מבוסס-היבטים.
הוראות לחיפוש נכסים מופיעות במאמר חיפוש נכסי נתונים ב-Knowledge Catalog במסמכי התיעוד של Knowledge Catalog.