יצירת צינורות עיבוד נתונים

במאמר הזה מוסבר איך ליצור צינורות ב-BigQuery. צינורות העיבוד מופעלים על ידי Dataform.

לפני שמתחילים

  1. In the Cloud de Confiance console, on the project selector page, select or create a Cloud de Confiance project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  2. Verify that billing is enabled for your Cloud de Confiance project.

  3. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

התפקידים הנדרשים לצינורות עיבוד נתונים

כדי לקבל את ההרשאות שדרושות ליצירת צינורות, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בפרויקט:

  • כדי ליצור צינורות: Code Creator (roles/dataform.codeCreator)
  • כדי לערוך ולהפעיל צינורות עיבוד נתונים: Dataform Editor (roles/dataform.editor)

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.

מידע נוסף על IAM ב-Dataform זמין במאמר בקרת גישה באמצעות IAM.

התפקידים הנדרשים לאפשרויות של Notebook

כדי לקבל את ההרשאות שנדרשות לבחירת תבנית של סביבת זמן ריצה באפשרויות של מחברת, צריך לבקש מהאדמין להקצות לכם ב-IAM את התפקיד משתמש בסביבת זמן ריצה של מחברת (roles/aiplatform.notebookRuntimeUser) בפרויקט. כדי לקרוא הסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.

אם אין לכם את התפקיד הזה, אתם יכולים לבחור את הגדרות ברירת המחדל של זמן הריצה של מחברת.

שיקולי אבטחה לצינורות עיבוד נתונים

נכסי קוד ב-BigQuery מבוססים על Dataform, ולכן חשוב לשים לב להשלכות האבטחה הבאות עבור משתמשים שיש להם גישה לנכסים האלה:

  • הגישה לנכסי קוד נקבעת לפי ההרשאות ברמת הפרויקט ב-Dataform. משתמשים עם ההרשאה dataform.repositories.list – שכלולה בתפקידים רגילים ב-BigQuery כמו BigQuery Job User,‏ BigQuery Studio User ו-BigQuery User – יכולים לראות את כל נכסי הקוד בחלונית Explorer של הפרויקט Cloud de Confiance , בלי קשר לשאלה אם הם יצרו את הנכסים האלה או שהנכסים האלה שותפו איתם. כדי להגביל את החשיפה, אפשר ליצור תפקידים בהתאמה אישית שלא כוללים את ההרשאה dataform.repositories.list.
  • יכול להיות שמשתמשים שיש להם הרשאת עריכה בנכסים האלה יוכלו לגשת לסודות ששותפו עם סוכן השירות של Dataform. כדי לאבטח את פרטי הכניסה, צריך להגביל את הגישה ליצירה ולעריכה למשתמשים מהימנים, ולהגביל את הסודות שסוכן השירות של Dataform יכול לגשת אליהם. מידע נוסף זמין במאמר גישה לסודות במהלך התקנת חבילה.

מידע נוסף זמין במאמר שיקולי אבטחה לגבי הרשאות ב-Dataform.

הגדרת אזור ברירת המחדל לנכסי קוד

כל נכסי הקוד החדשים בפרויקט Cloud de Confiance משתמשים באזור ברירת מחדל. אחרי שיוצרים את הנכס, אי אפשר לשנות את האזור שלו.

כדי להגדיר את אזור ברירת המחדל לנכסי קוד חדשים:

  1. עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית הימנית, לוחצים על קבצים כדי לפתוח את דפדפן הקבצים:

    לוחצים על **קבצים** כדי לפתוח את דפדפן הקבצים.

  3. לצד שם הפרויקט, לוחצים על View files panel actions (הצגת פעולות בחלונית הקבצים) > Switch code region (החלפת אזור הקוד).

  4. בוחרים את אזור הקוד שרוצים להגדיר כברירת מחדל.

  5. לוחצים על Save.

רשימת האזורים הנתמכים מופיעה במאמר בנושא מיקומים ב-BigQuery Studio.

יצירת פייפליין

אפשר גם להשתמש בדף Pipelines & Connections במסוף Cloud de Confiance BigQuery כדי ליצור צינור Dataform שמשתמש בתהליך עבודה יעיל שספציפי ל-BigQuery. התכונה הזו נמצאת בגרסת טרום-השקה.

כדי ליצור צינור, פועלים לפי השלבים הבאים:

  1. עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בסרגל הכרטיסיות של חלונית העריכה, לוחצים על החץ לצד הסימן + ואז על Pipeline.

  3. אופציונלי: כדי לשנות את השם של צינור הנתונים, לוחצים על השם של צינור הנתונים ומקלידים שם חדש.

  4. לוחצים על Get started (תחילת העבודה) ועוברים לכרטיסייה Settings (הגדרות).

  5. בקטע Authentication (אימות), בוחרים לאשר את הצינור באמצעות פרטי הכניסה של המשתמש לחשבון Google או לחשבון שירות.

    • כדי להשתמש בפרטי הכניסה של המשתמש בחשבון Google שלכם (תצוגה מקדימה), בוחרים באפשרות Run with my user credentials (הרצה עם פרטי הכניסה של המשתמש שלי).

    • כדי להשתמש בחשבון שירות, בוחרים באפשרות Run with selected service account ואז בוחרים חשבון שירות. אם אתם צריכים ליצור חשבון שירות, לוחצים על חשבון שירות חדש.

  6. בקטע מיקום העיבוד, בוחרים מיקום עיבוד לצינור.

    • כדי להפעיל את הבחירה האוטומטית של מיקום, בוחרים באפשרות המיקום ייבחר אוטומטית. באמצעות האפשרות הזו, המיקום נבחר על סמך קבוצות הנתונים שאליהן מתייחסת הבקשה. תהליך הבחירה הוא כזה:

      • אם השאילתה מפנה למערכי נתונים מאותו מיקום, BigQuery משתמש במיקום הזה.
      • אם השאילתה מפנה למערכי נתונים משני מיקומים שונים או יותר, תתרחש שגיאה. פרטים נוספים על ההגבלה הזו זמינים במאמר בנושא שכפול של מערכי נתונים באזורים שונים.
      • אם השאילתה לא מפנה למערכי נתונים, BigQuery משתמש כברירת מחדל בUS מספר אזורים.
    • כדי לבחור אזור ספציפי, בוחרים באפשרות אזור ואז בוחרים אזור בתפריט אזור. אפשר גם להשתמש במשתנה המערכת @@location בשאילתה. מידע נוסף זמין במאמר בנושא ציון מיקומים.

    • כדי לבחור אזור מרובה, בוחרים באפשרות Multi-region ובתפריט Multi-region בוחרים אזור מרובה.

    המיקום של צינור העיבוד לא צריך להיות זהה למיקום ברירת המחדל לאחסון של נכסי קוד.

אפשרויות SQLX

כדי להגדיר את הגדרות ה-SQLX של צינור הנתונים, מבצעים את הפעולות הבאות בקטע SQLX options:

  1. בשדה Default project, מזינים את השם של פרויקט קיים ב-Cloud de Confiance . הערך הזה משמש ל-defaultProject בקובץ workflow_settings.yaml ול-defaultDatabase בקובץ dataform.json. משימות בצינור עיבוד הנתונים משתמשות בפרויקט ברירת המחדל במהלך ההרצה שלהן.

  2. אופציונלי: בשדה Default dataset, מחפשים ובוחרים מערך נתונים קיים. רשימת מערכי הנתונים הזמינים מסוננת לפי הפרויקט ומיקום העיבוד שנבחרו. הערך הזה משמש ל-defaultDataset בקובץ workflow_settings.yaml. קבוצת הנתונים שמוגדרת כברירת מחדל משמשת את המשימות של צינור עיבוד הנתונים במהלך ההפעלה שלהן.

אפשרויות של Notebook

כדי להוסיף מחברת לצינור, מבצעים את הפעולות הבאות בקטע Notebook options (אפשרויות המחברת):

  1. בשדה תבנית זמן הריצה, מאשרים את זמן הריצה שמוגדר כברירת מחדל למחברת, או מחפשים זמן ריצה קיים ובוחרים אותו.

    • כדי לראות את המפרטים של זמן הריצה שמוגדר כברירת מחדל, לוחצים על החץ הסמוך.
    • כדי ליצור סביבת ריצה חדשה, אפשר לעיין במאמר בנושא יצירת תבנית של סביבת ריצה.
  2. בשדה Cloud Storage bucket, לוחצים על Browse ובוחרים או יוצרים קטגוריה של Cloud Storage לאחסון הפלט של מחברות ה-notebook בצינור.

  3. כדי להוסיף את חשבון השירות המותאם אישית של Dataform כישות מורשית לקטגוריה של Cloud Storage שבה אתם מתכננים לאחסן את הפלט של הפעלות פייפליין מתוזמנות, פועלים לפי השלבים במאמר הוספת ישות מורשית למדיניות ברמת הקטגוריה ומעניקים לישות המורשית הזו את תפקיד אדמין האחסון (roles/storage.admin).

    צריך להעניק לחשבון השירות המותאם אישית של Dataform שנבחר את תפקיד ה-IAM של אדמין Storage בדלי שנבחר.

הוספת משימה לצינור

אפשר להוסיף כמה משימות לצינור, שיבצע נכסי קוד ברצף מסוים.

מוסכמות למתן שמות למשימות

כשנותנים שם למשימה בצינור עיבוד הנתונים, צריך לפעול לפי מוסכמות מתן השמות הבאות:

  • שמות המשימות יכולים להכיל רק אותיות (a-z,‏ A-Z), מספרים (0-9), קווים תחתונים (_) ומקפים (-).
  • שמות המשימות צריכים להתחיל באות, במספר או בקו תחתון.
  • אסור להשתמש בנקודות (.) בשמות של משימות. כשנותנים שם למשימה או משנים את השם שלה, אסור לכלול סיומות של קבצים כמו .sql או .py. אם שם המשימה מכיל נקודה, הלחצן הפעלה מושבת.
  • שמות המשימות יכולים להכיל תווים באורך כולל של עד 1,024 בייטים בקידוד UTF-8.
  • שמות המשימות צריכים להיות ייחודיים בתוך מאגר הצינור.
  • שמות של משימות הם תלויי אותיות רישיות.

הוספת משימה

כדי להוסיף משימה לצינור, פועלים לפי השלבים הבאים:

  1. במסוף Cloud de Confiance , עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית הימנית, לוחצים על  כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

    אם החלונית הימנית לא מוצגת, לוחצים על  הרחבת החלונית הימנית כדי לפתוח אותה.

  3. בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Pipelines ובוחרים צינור.

  4. כדי להוסיף נכס קוד, בוחרים באחת מהאפשרויות הבאות:

    שאילתת SQL

    1. לוחצים על הוספת משימה ואז על שאילתה. אפשר ליצור שאילתה חדשה או לייבא שאילתה קיימת.

    2. אופציונלי: בחלונית פרטי משימת השאילתה, בתפריט הפעלה אחרי, בוחרים משימה שתקדים את השאילתה.

    יצירת שאילתה חדשה

    1. לצד עריכת שאילתה, לוחצים על תפריט החץ ובוחרים באפשרות בהקשר או בכרטיסייה חדשה.

    2. מחפשים שאילתה קיימת.

    3. בוחרים שם של שאילתה ולוחצים על Enter.

    4. לוחצים על Save.

    5. אופציונלי: כדי לשנות את שם השאילתה, לוחצים על שם השאילתה בחלונית של צינור הנתונים, לוחצים על עריכת שאילתה, לוחצים על שם השאילתה הקיים בחלק העליון של המסך ומקלידים שם חדש.

    ייבוא של שאילתה קיימת

    1. לוחצים על התפריט חץ לצד עריכת שאילתה ואז על ייבוא עותק.

    2. מחפשים שאילתה קיימת לייבוא או בוחרים שאילתה קיימת מחלונית החיפוש. כשמייבאים שאילתה, המקור לא משתנה כי קובץ המקור של השאילתה מועתק לצינור.

    3. לוחצים על עריכה כדי לפתוח את השאילתה המיובאת.

    4. לוחצים על Save.

    Notebook

    1. לוחצים על הוספת משימה ואז על מחברת. אתם יכולים ליצור מחברת חדשה או לייבא מחברת קיימת. כדי לשנות את ההגדרות של תבניות זמן ריצה של מחברות, אפשר לעיין באפשרויות של מחברות.

    2. אופציונלי: בחלונית Notebook task details, בתפריט Run after, בוחרים משימה שתקדים את המחברת.

    יצירת מחברת חדשה

    1. לוחצים על תפריט החצים לצד עריכת ה-Notebook ובוחרים באפשרות בהקשר או בכרטיסייה חדשה.

    2. מחפשים נוטבוק קיים.

    3. בוחרים שם למחברת ומקישים על Enter.

    4. לוחצים על Save.

    5. אופציונלי: כדי לשנות את השם של הנוטבוק, לוחצים על שם הנוטבוק בחלונית של הפייפליין, לוחצים על עריכת הנוטבוק, לוחצים על השם הקיים של הנוטבוק בחלק העליון של המסך ומקלידים שם חדש.

    איך מייבאים מחברת קיימת

    1. לוחצים על תפריט החצים לצד עריכת המחברת ואז על ייבוא עותק.

    2. מחפשים מחברת קיימת לייבוא או בוחרים מחברת קיימת בחלונית החיפוש. כשמייבאים מחברת, המקור לא משתנה כי קובץ המקור של המחברת מועתק לצנרת.

    3. כדי לפתוח את המחברת המיובאת, לוחצים על עריכה.

    4. לוחצים על Save.

    תהליך הכנת נתונים

    1. לוחצים על הוספת משימה ובוחרים באפשרות הכנת נתונים. אפשר ליצור הכנת נתונים חדשה או לייבא הכנת נתונים קיימת.

    2. אופציונלי: בחלונית פרטי משימת הכנת הנתונים, בתפריט הפעלה אחרי, בוחרים משימה שתקדים את הכנת הנתונים.

    יצירת תהליך חדש להכנת נתונים

    1. לוחצים על תפריט החצים שלצד עריכת הכנת הנתונים ובוחרים באפשרות בהקשר או בכרטיסייה חדשה.

    2. חיפוש של תהליך קיים להכנת נתונים.

    3. בוחרים שם להכנת הנתונים ומקישים על Enter.

    4. לוחצים על Save.

    5. אופציונלי: כדי לשנות את השם של הכנת הנתונים, לוחצים על השם של הכנת הנתונים בחלונית של צינור הנתונים, לוחצים על עריכת הכנת הנתונים, לוחצים על השם בחלק העליון של המסך ומזינים שם חדש.

    ייבוא של הכנת נתונים קיימת

    1. לוחצים על התפריט הנפתח עם החץ לצד עריכת הכנת הנתונים ואז על ייבוא עותק.

    2. מחפשים הכנה קיימת של נתונים לייבוא או בוחרים הכנה קיימת של נתונים מחלונית החיפוש. כשמייבאים הכנה של נתונים, המקור המקורי לא משתנה כי קובץ המקור של הכנת הנתונים מועתק לצינור.

    3. כדי לפתוח את ההכנה של הנתונים המיובאים, לוחצים על עריכה.

    4. לוחצים על Save.

    טבלה

    1. לוחצים על הוספת משימה ואז על טבלה.

    2. בחלונית יצירת פריט חדש, בוחרים באפשרות טבלה או טבלה מצטברת.

    3. מוודאים מהו פרויקט ברירת המחדל של הטבלה או בוחרים פרויקט חדש.

    4. מאמתים את מערך הנתונים שמוגדר כברירת מחדל לטבלה או בוחרים מערך נתונים חדש.

    5. מזינים שם לטבלה.

    6. בחלונית פרטי משימה בטבלה, לוחצים על פתיחה כדי לפתוח את המשימה.

    7. מגדירים את המשימה באמצעות ההגדרות בפרטים > הגדרה או בבלוק config של עורך הקוד של הטבלה.

      כדי לראות שינויים במטא-נתונים, משתמשים בכרטיסייה Configuration (הגדרה). בכרטיסייה הזו אפשר לערוך ערך ספציפי בבלוק config מעורך הקוד, כמו מחרוזת או מערך, שמפורמטים כמו אובייקט JavaScript. השימוש בכרטיסייה הזו עוזר לכם להימנע משגיאות תחביר ולוודא שההגדרות שלכם נכונות.

      אופציונלי: בתפריט Run after, בוחרים משימה שתקדים את הטבלה.

      אפשר גם להגדיר את המטא-נתונים של משימת הצינור בבלוק config בכלי העריכה. מידע נוסף זמין במאמר בנושא יצירת טבלאות.

      העורך מאמת את הקוד ומציג את סטטוס האימות.

    8. בקטע Details > Compiled queries (פרטים > שאילתות שעברו קומפילציה), אפשר לראות את ה-SQL שעבר קומפילציה מקוד ה-SQLX.

    9. לוחצים על Run כדי להריץ את ה-SQL בצינור.

    10. בודקים את תצוגת הנתונים המקדימה בQuery results.

    הצגה

    1. לוחצים על הוספת משימה ואז על תצוגה.

    2. בחלונית יצירה של תצוגה חדשה, בוחרים באפשרות תצוגה או תצוגה מהותית.

    3. מאמתים את פרויקט ברירת המחדל של התצוגה או בוחרים פרויקט חדש.

    4. מאמתים את מערך הנתונים שמוגדר כברירת מחדל לתצוגה או בוחרים מערך נתונים חדש.

    5. מזינים שם לתצוגה.

    6. בחלונית הצגת פרטי המשימה, לוחצים על פתיחה כדי לפתוח את המשימה.

    7. מגדירים את המשימה באמצעות ההגדרות בפרטים > הגדרה או בבלוק config של עורך הקוד לתצוגה המפורטת.

      כדי לראות שינויים במטא-נתונים, משתמשים בכרטיסייה Configuration (הגדרה). בכרטיסייה הזו אפשר לערוך ערך ספציפי בבלוק config מעורך הקוד, כמו מחרוזת או מערך, שמפורמטים כמו אובייקט JavaScript. השימוש בכרטיסייה הזו עוזר לכם להימנע משגיאות תחביר ולוודא שההגדרות שלכם נכונות.

      אופציונלי: בתפריט Run after (הפעלה אחרי), בוחרים משימה שתקדים את התצוגה.

      אפשר גם להגדיר את המטא-נתונים של משימת הצינור בבלוק config בכלי העריכה. מידע נוסף זמין במאמר יצירת תצוגה באמצעות Dataform Core.

      העורך מאמת את הקוד ומציג את סטטוס האימות.

    8. בקטע Details > Compiled queries (פרטים > שאילתות שעברו קומפילציה), אפשר לראות את ה-SQL שעבר קומפילציה מקוד ה-SQLX.

    9. לוחצים על Run כדי להריץ את ה-SQL בצינור.

    10. בודקים את תצוגת הנתונים המקדימה בQuery results.

עריכת משימה בפייפליין

כדי לערוך משימה בצינור, פועלים לפי השלבים הבאים:

  1. במסוף Cloud de Confiance , עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית הימנית, לוחצים על  כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

    אם החלונית הימנית לא מוצגת, לוחצים על  הרחבת החלונית הימנית כדי לפתוח אותה.

  3. בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Pipelines ובוחרים צינור.

  4. לוחצים על המשימה שנבחרה.

  5. כדי לשנות את המשימה הקודמת, בתפריט Run after (הפעלה אחרי), בוחרים משימה שתקדים את המשימה שלכם.

  6. כדי לערוך את התוכן של המשימה שנבחרה, לוחצים על עריכה.

  7. בכרטיסייה החדשה שנפתחת, עורכים את תוכן המשימה ושומרים את השינויים במשימה.

מחיקת משימה בצינור

כדי למחוק משימה מצינור מכירות, פועלים לפי השלבים הבאים:

  1. במסוף Cloud de Confiance , עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית הימנית, לוחצים על  כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

    אם החלונית הימנית לא מוצגת, לוחצים על  הרחבת החלונית הימנית כדי לפתוח אותה.

  3. בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Pipelines ובוחרים צינור.

  4. לוחצים על המשימה שנבחרה.

  5. בחלונית פרטי המשימה, לוחצים על מחיקה מחיקה.

שיתוף פייפליין

כדי לשתף צינור:

  1. במסוף Cloud de Confiance , עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית הימנית, לוחצים על  כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

    אם החלונית הימנית לא מוצגת, לוחצים על  הרחבת החלונית הימנית כדי לפתוח אותה.

  3. בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Pipelines ובוחרים צינור.

  4. לוחצים על שיתוף ואז על ניהול הרשאות.

  5. לוחצים על הוספת משתמש או קבוצה.

  6. בשדה New principals, מזינים את השם של משתמש או קבוצה אחת לפחות.

  7. בקטע Assign Roles (הקצאת תפקידים), בוחרים תפקיד.

  8. לוחצים על Save.

  1. במסוף Cloud de Confiance , עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית הימנית, לוחצים על  כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

    אם החלונית הימנית לא מוצגת, לוחצים על  הרחבת החלונית הימנית כדי לפתוח אותה.

  3. בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Pipelines ובוחרים צינור.

  4. לוחצים על שיתוף ואז על שיתוף הקישור. כתובת ה-URL של צינור העיבוד תועתק ללוח של המחשב.

הפעלת צינור עיבוד נתונים

כשמריצים צינור, אפשר להריץ את כל המשימות בצינור, לבחור ידנית משימות ספציפיות להרצה או להריץ משימות עם תגים נבחרים.

הרצת כל המשימות בצינור

כדי להריץ באופן ידני את הגרסה הנוכחית של צינור, בוחרים באחת מהאפשרויות הבאות:

המסוף

כדי להריץ את כל המשימות בצינור:

  1. במסוף Cloud de Confiance , עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית הימנית, לוחצים על  כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

    אם החלונית הימנית לא מוצגת, לוחצים על  הרחבת החלונית הימנית כדי לפתוח אותה.

  3. בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Pipelines ובוחרים צינור.

  4. לוחצים על  הפעלה > הפעלת כל המשימות. אם בחרתם באפשרות הפעלה עם פרטי המשתמש שלי עבור האימות, אתם צריכים לתת הרשאה לחשבון Google (תצוגה מקדימה).

  5. אופציונלי: כדי לבדוק את ההרצה, צופים בהרצות ידניות קודמות.

API

כדי להריץ צינור עיבוד נתונים באופן ידני, צריך לקמפל את סביבת העבודה שמוגדרת כברירת מחדל ולהשתמש בתוצאת הקומפילציה כדי ליצור הפעלה של תהליך עבודה.

  1. כדי ליצור תוצאת קומפילציה לסביבת העבודה שמוגדרת כברירת מחדל, משתמשים בשיטה projects.locations.repositories.compilationResults.create.

    מריצים את בקשת ה-API עם הפרטים הבאים:

    curl -X POST \
       -H "Authorization: Bearer $(gcloud auth print-access-token)" \
       -H "Content-Type: application/json" \
       -d '{
          "workspace": "projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workspaces/default"
       }' \
       "https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/compilationResults"
    

    מחליפים את מה שכתוב בשדות הבאים:

    • LOCATION: האזור Cloud de Confiance by S3NS של המאגר, לדוגמה, us-central1. כדי למצוא את מיקום המאגר, עוברים לחלונית Explorer במסוף, בוחרים את צינור הנתונים, פותחים את הכרטיסייה Settings ולוחצים על Open pipeline in Dataform. Cloud de Confiance המיקום מופיע בכתובת ה-URL בפורמט /locations/LOCATION/.
    • PROJECT_ID: המזהה הייחודי של הפרויקט ב-Cloud de Confiance .
    • REPOSITORY_ID: המזהה הייחודי של מאגר Dataform, לדוגמה, my-secure-repo. אפשר למצוא את מזהה המאגר במסוף Cloud de Confiance . כדי לעשות את זה, עוברים לחלונית Explorer, בוחרים את צינור הנתונים, פותחים את הכרטיסייה Settings ומסתכלים בשדה Dataform repository ID.
  2. בגוף התגובה, מאתרים את השדה name ומעתיקים את הערך שלו, למשל, projects/my-project/locations/us-central1/repositories/my-repo/compilationResults/12345-67890.

  3. מפעילים את צינור עיבוד הנתונים באמצעות השיטה projects.locations.repositories.workflowInvocations.create.

    מריצים את בקשת ה-API עם הפרטים הבאים:

    curl -X POST \
       -H "Authorization: Bearer $(gcloud auth print-access-token)" \
       -H "Content-Type: application/json" \
       -d '{
          "compilationResult": "COMPILATION_RESULT"
       }' \
       "https://dataform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/repositories/REPOSITORY_ID/workflowInvocations"
    

    מחליפים את מה שכתוב בשדות הבאים:

    • COMPILATION_RESULT: שם המשאב המלא של תוצאת הקומפילציה שהעתקתם בשלב הקודם.
    • LOCATION: האזור Cloud de Confiance by S3NS של המאגר, לדוגמה, us-central1.
    • PROJECT_ID: המזהה הייחודי של הפרויקט ב-Cloud de Confiance .
    • REPOSITORY_ID: המזהה הייחודי של מאגר Dataform, לדוגמה, my-secure-repo.

הרצת משימות נבחרות בצינור

כדי להריץ משימות נבחרות בצינור, מבצעים את הפעולות הבאות:

  1. במסוף Cloud de Confiance , עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית הימנית, לוחצים על  כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

    אם החלונית הימנית לא מוצגת, לוחצים על  הרחבת החלונית הימנית כדי לפתוח אותה.

  3. בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Pipelines ובוחרים צינור.

  4. לוחצים על  הפעלה > בחירת משימות להפעלה.

  5. בחלונית Run, בקטע Authentication, מאשרים את ההרצה באמצעות פרטי הכניסה של המשתמש לחשבון Google או לחשבון שירות.

    • כדי להשתמש בפרטי הכניסה של המשתמש בחשבון Google (תצוגה מקדימה), בוחרים באפשרות הפעלה עם פרטי כניסה של משתמש.
    • כדי להשתמש בחשבון שירות בהתאמה אישית, בוחרים באפשרות Run with selected service account (הפעלה עם חשבון השירות שנבחר) ואז בוחרים חשבון שירות בהתאמה אישית.

      אם אתם צריכים ליצור חשבון שירות, לוחצים על חשבון שירות חדש.

  6. מוודאים שהאפשרות בחירת משימות נבחרה.

  7. בתפריט Select tasks to run (בחירת משימות להפעלה), מחפשים משימות ספציפיות ובוחרים את המשימות שרוצים להפעיל.

    בטבלת משימות מופיעות המשימות שבחרתם. לוחצים על שם של משימה כדי לפתוח אותה ישירות בעורך ה-SQL.

  8. אופציונלי: מגדירים את אפשרויות ההפעלה הבאות:

    • Include dependencies (הכללת תלויות): בוחרים באפשרות הזו כדי להריץ את המשימות שנבחרו ואת התלויות שלהן.
    • Include dependents (כולל תלויות): בוחרים באפשרות הזו כדי להפעיל את המשימות שנבחרו ואת התלויות שלהן במורד הזרם.
    • הפעלה עם רענון מלא: בוחרים באפשרות הזו כדי לבנות מחדש את כל הטבלאות מאפס.
    • הפעלה כעבודת אינטראקטיבית עם עדיפות גבוהה (ברירת מחדל): בוחרים באפשרות הזו כדי להגדיר את העדיפות של עבודת השאילתה ב-BigQuery. כברירת מחדל, BigQuery מריץ שאילתות כמשימות של שאילתות אינטראקטיביות, שמיועדות להתחיל לפעול במהירות האפשרית. אם מבטלים את הסימון של האפשרות הזו, השאילתות מופעלות כעבודות של שאילתות באצווה, שהעדיפות שלהן נמוכה יותר.
  9. לוחצים על Run. אם בחרתם באפשרות הפעלה עם פרטי כניסה של משתמש כשיטת האימות, אתם צריכים לתת הרשאה לחשבון Google (תצוגה מקדימה).

  10. אופציונלי: כדי לבדוק את ההרצה, צופים בהרצות ידניות קודמות.

הרצת משימות עם תגים נבחרים בצינור

כדי להריץ משימות עם תגים נבחרים בצינור, מבצעים את הפעולות הבאות:

  1. במסוף Cloud de Confiance , עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית הימנית, לוחצים על  כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

    אם החלונית הימנית לא מוצגת, לוחצים על  הרחבת החלונית הימנית כדי לפתוח אותה.

  3. בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Pipelines ובוחרים צינור.

  4. לוחצים על  Run > Run by tag, ואז מבצעים אחת מהפעולות הבאות:

    • לוחצים על תג שרוצים להפעיל.
    • לוחצים על  Select tags to run (בחירת תגים להפעלה).
  5. בחלונית Run, בקטע Authentication, מאשרים את ההרצה באמצעות פרטי הכניסה של המשתמש בחשבון Google או בחשבון שירות.

    • כדי להשתמש בפרטי הכניסה של המשתמש בחשבון Google (תצוגה מקדימה), בוחרים באפשרות הפעלה עם פרטי כניסה של משתמש.
    • כדי להשתמש בחשבון שירות בהתאמה אישית, בוחרים באפשרות Run with selected service account (הפעלה עם חשבון השירות שנבחר) ואז בוחרים חשבון שירות בהתאמה אישית.

      אם אתם צריכים ליצור חשבון שירות, לוחצים על חשבון שירות חדש.

  6. מוודאים שהאפשרות בחירת תגים מסומנת.

  7. בתפריט Select tags to run (בחירת תגים להפעלה), מחפשים תגים ספציפיים ובוחרים את התגים שרוצים להפעיל.

    בטבלת משימות מופיעות המשימות שבחרתם. לוחצים על שם של משימה כדי לפתוח אותה ישירות בעורך ה-SQL.

  8. אופציונלי: מגדירים את אפשרויות ההפעלה הבאות:

    • Include dependencies (הכללת תלויות): בוחרים באפשרות הזו כדי להריץ את המשימות שנבחרו ואת התלויות שלהן.
    • Include dependents (כולל תלויות): בוחרים באפשרות הזו כדי להפעיל את המשימות שנבחרו ואת התלויות שלהן במורד הזרם.
    • הפעלה עם רענון מלא: בוחרים באפשרות הזו כדי לבנות מחדש את כל הטבלאות מאפס.
    • הפעלה כעבודת אינטראקטיבית עם עדיפות גבוהה (ברירת מחדל): בוחרים באפשרות הזו כדי להגדיר את העדיפות של עבודת השאילתה ב-BigQuery. כברירת מחדל, BigQuery מריץ שאילתות כמשימות של שאילתות אינטראקטיביות, שמיועדות להתחיל לפעול במהירות האפשרית. אם מבטלים את הסימון של האפשרות הזו, השאילתות מופעלות כעבודות של שאילתות באצווה, שהעדיפות שלהן נמוכה יותר.
  9. לוחצים על Run. אם בחרתם באפשרות הפעלה עם פרטי כניסה של משתמש כשיטת האימות, אתם צריכים לתת הרשאה לחשבון Google (תצוגה מקדימה).

  10. אופציונלי: כדי לבדוק את ההרצה, צופים בהרצות ידניות קודמות.

איך נותנים הרשאה לחשבון Google

כדי לאמת את המשאב באמצעות פרטי הכניסה של המשתמש בחשבון Google, צריך להעניק באופן ידני הרשאה לצינורות של BigQuery לקבל את טוקן הגישה לחשבון Google ולגשת לנתוני המקור בשמכם. אתם יכולים לתת אישור ידני באמצעות ממשק תיבת הדו-שיח של OAuth.

צריך לתת הרשאה לצינורות של BigQuery רק פעם אחת.

כדי לבטל את ההרשאה שנתתם:

  1. עוברים אל הדף של החשבון ב-Google.
  2. לוחצים על BigQuery Pipelines.
  3. לוחצים על הסרת הגישה.

אם צינור הנתונים מכיל מחברת, צריך גם לתת באופן ידני הרשאה ל-Colab Enterprise לקבל את אסימון הגישה לחשבון Google שלכם ולגשת לנתוני המקור בשמכם. צריך לתת הרשאה רק פעם אחת. אפשר לבטל את ההרשאה הזו בדף של חשבון Google.

המאמרים הבאים