יצירת תובנות לגבי מערך נתונים

במאמר הזה נסביר איך ליצור תובנות לגבי מערכי נתונים ב-BigQuery. תובנות לגבי מערך נתונים עוזרות לכם להבין את הקשרים בין הטבלאות במערך הנתונים באמצעות יצירה של תרשימי קשרים ושאילתות בין טבלאות.

תובנות לגבי מערכי נתונים עוזרות לכם להאיץ את המחקר של מערכי נתונים עם כמה טבלאות. המערכת מגלה ומציגה באופן אוטומטי את הקשרים בין הטבלאות בתרשים, מזהה קשרים של מפתח ראשי ומפתח זר ומפיקה שאילתות לדוגמה בין טבלאות. התכונה הזו שימושית כדי להבין את מבנה הנתונים בלי מסמכים, לגלות קשרים בין טבלאות שמוגדרים בסכימה, מבוססים על שימוש או נגזרים מ-AI, וליצור שאילתות מורכבות שמבצעות איחוד של כמה טבלאות.

סקירה כללית על תובנות לגבי טבלאות ומערכי נתונים

מצבים ליצירת תובנות לגבי מערך נתונים

כשמפיקים תובנות ממערך נתונים, יש ב-BigQuery שני מצבים:

מצב תיאור Usage
יצירה ופרסום

שומר את התובנות לגבי מערכי הנתונים שנוצרו ב-Knowledge Catalog כהיבטים של מטא-נתונים וקשרים. צריכות להיות לכם ההרשאות הנדרשות לפרסום. כשמשתמשים באפשרות יצירה ופרסום, BigQuery מבצע את הפעולות הבאות:

  • תיאור מערך הנתונים נשמר ב-Knowledge Catalog.
  • התכונה הזו מאפשרת לשמור הצעות לשאילתות ולשאלות כהיבטים שאפשר לעשות בהם שימוש חוזר.
  • הכלי מתעד את הקשרים כמטא-נתונים ב-Knowledge Catalog.
  • התובנות שפורסמו יהיו נגישות לכל המשתמשים שיש להם גישה מתאימה ל-Knowledge Catalog, וכך הידע הארגוני יהיה משותף.
  • אפשר לערוך ולשמור תיאורים ישירות ב-Knowledge Catalog באמצעות ה-API. אפשר לערוך את השאילתות המוצעות באמצעות Cloud de Confiance המסוף.

משתמשים במצב הזה לתיעוד נתונים בכל הארגון שנשמר וניתן לשימוש חוזר, או כשיוצרים תהליכי עבודה של ניהול שמבוססים על קטלוג.

יצירה ללא פרסום

יצירת תובנות לגבי מערך נתונים, כמו תיאורים, שאלות בשפה טבעית, קשרים ושאילתות SQL על פי דרישה. האפשרות יצירה ללא פרסום לא מפרסמת תובנות ב-Knowledge Catalog.

משתמשים במצב הזה כדי לבצע במהירות מחקר אד-הוק, וכך להימנע מעומס בנתוני הקטלוג.

לפני שמתחילים

התובנות מנתונים נוצרות באמצעות Gemini ב-BigQuery. כדי להתחיל ליצור תובנות, קודם צריך להגדיר את Gemini ב-BigQuery.

הפעלת ממשקי ה-API

כדי להשתמש בתובנות לגבי נתונים, צריך להפעיל את ממשקי ה-API הבאים בפרויקט: Dataplex API,‏ BigQuery API ו-Gemini for Google Cloud API.

תפקידים שנדרשים להפעלת ממשקי API

כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאה serviceusage.services.enable. איך מקצים תפקידים

הפעלת ממשקי ה-API

מידע נוסף על הפעלת Gemini for Google Cloud API זמין במאמר בנושא הפעלת Gemini for Google Cloud API בפרויקט. Cloud de Confiance

השלמת סריקת פרופיל נתונים

כדי לשפר את איכות התובנות, כדאי ליצור סריקה של פרופיל הנתונים לטבלאות במערך הנתונים.

התפקידים הנדרשים

כדי לקבל את ההרשאות שדרושות ליצירה, לניהול ולאחזור של תובנות לגבי מערכי נתונים, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים:

  • כדי ליצור, לנהל ולאחזר תובנות:
    • Dataplex DataScan Editor (roles/dataplex.dataScanEditor) או Dataplex DataScan Administrator (roles/dataplex.dataScanAdmin) בפרויקט
    • BigQuery Data Editor (roles/bigquery.dataEditor) on tables
    • BigQuery User (roles/bigquery.user) או BigQuery Studio User (roles/bigquery.studioUser) בפרויקט
    • BigQuery Resource Viewer (roles/bigquery.resourceViewer) on project
  • כדי לראות את התובנות:
  • כדי לפרסם תובנות ב-Knowledge Catalog: בעלים של רשומת Dataplex ו-EntryLink (roles/dataplex.entryOwner) בקבוצת הרשומות

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.

כדי לראות בדיוק אילו הרשאות נדרשות ליצירת תובנות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

  • bigquery.datasets.get: קריאת מטא-נתונים של מערך נתונים
  • bigquery.jobs.create: יצירת משרות
  • bigquery.jobs.listAll: רשימת כל המשימות בפרויקט
  • bigquery.tables.get: אחזור מטא-נתונים של טבלה
  • bigquery.tables.getData: אחזור נתונים ומטא-נתונים של טבלה
  • dataplex.datascans.create: יצירת משאב DataScan
  • dataplex.datascans.get: קריאת מטא-נתונים של משאב DataScan
  • dataplex.datascans.getData: קריאת תוצאות ההפעלה של DataScan
  • dataplex.datascans.run: הפעלת סריקת נתונים לפי דרישה
  • dataplex.entryGroups.useSchemaJoinEntryLink: שימוש בקישורים לרשומות schema-join
  • dataplex.entryGroups.useSchemaJoinAspect: שימוש בהיבטים של צירוף סכימות
  • dataplex.entryLinks.create: יצירת קישורים לרשומות
  • dataplex.entryLinks.update: עדכון קישורים לרשומות
  • dataplex.entryLinks.delete: מחיקת קישורים לרשומות
  • dataplex.entries.link: קישור רשומות
  • dataplex.entries.update: עדכון רשומות
  • dataplex.entryGroups.useDescriptionsAspect: שימוש בהיבטים של תיאור
  • dataplex.entryGroups.useQueriesAspect: שימוש בהיבטים של שאילתות

יצירת תובנות לגבי מערך נתונים

המסוף

  1. במסוף Cloud de Confiance , עוברים אל BigQuery Studio.

    כניסה ל-BigQuery Studio

  2. בחלונית Explorer, בוחרים את הפרויקט ואז את מערך הנתונים שרוצים ליצור לגביהם תובנות.

  3. לוחצים על הכרטיסייה תובנות.

  4. כדי ליצור תובנות ולפרסם אותן ב-Knowledge Catalog, לוחצים על יצירה ופרסום.

    כדי ליצור תובנות בלי לפרסם אותן ב-Knowledge Catalog, לוחצים על יצירה ללא פרסום.

    מידע נוסף על ההבדלים בין המצבים יצירה ופרסום ויצירה ללא פרסום זמין במאמר מצבים ליצירת תובנות ממערך נתונים.

  5. אם מערך הנתונים נמצא במספר אזורים, יכול להיות שתתבקשו לבחור אזור כדי ליצור תובנות. בוחרים אזור שמתאים לאזור הרב-אזורי שבו ייווצר סריקת התובנות.

    יחלפו כמה דקות עד שהתובנות יופיעו. כדי לשפר את איכות התובנות, כדאי לוודא שלטבלאות במערך הנתונים יש תוצאות של פרופיל נתונים.

אחרי שהתובנות נוצרות, ב-BigQuery מוצגים תיאור של מערך הנתונים, תרשים של הקשרים, טבלה של הקשרים ודוגמאות לשאילתות בין טבלאות.

REST

כדי ליצור תובנות באופן פרוגרמטי, משתמשים ב-DataScans API של Knowledge Catalog. כדי לעשות זאת, פועלים לפי השלבים הבאים:

  1. יצירת סריקה של נתונים לתיעוד נתונים של מערך נתונים ב-BigQuery
  2. בדיקת הסטטוס של סריקת תיעוד הנתונים
  3. אימות הפרסום ב-Knowledge Catalog

יצירת סריקת נתונים לתיעוד נתונים של מערך נתונים ב-BigQuery

  1. יוצרים סריקה של נתוני תיעוד נתונים באמצעות השיטה dataScans.create. אופציונלי: אפשר לפרסם את התובנות האלה ב-Knowledge Catalog על ידי הגדרת הפרמטר catalog_publishing_enabled לערך true.

    לדוגמה:

    alias gcurl='curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json"'
    gcurl -X POST \
    https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
    dataScans?dataScanId=DATASCAN_ID \
    -d '{
      "data": {
        "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID"
      },
      "executionSpec": {
        "trigger": { "onDemand": {} }
      },
      "type": "DATA_DOCUMENTATION",
      "dataDocumentationSpec": {
        "catalog_publishing_enabled": true
      }
    }'
    

    מחליפים את מה שכתוב בשדות הבאים:

    • PROJECT_ID: מזהה הפרויקט שבו נמצא מערך הנתונים Cloud de Confiance by S3NS
    • LOCATION: האזור שבו מתבצעת סריקת הנתונים
    • DATASCAN_ID: שם ייחודי שאתם מספקים לסריקה הזו
    • DATASET_ID: המזהה של מערך הנתונים ב-BigQuery שנסרק
  2. מתחילים את משימת הסריקה של תיעוד הנתונים באמצעות השיטה dataScans.run.

    לדוגמה:

    gcurl -X POST \
    https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
    dataScans/DATASCAN_ID:run
    

    הבקשה הזו מחזירה מזהה עבודה ייחודי יחד עם המצב הראשוני.

בדיקת סטטוס הסריקה של תיעוד הנתונים

בודקים שהרצת עבודת הסריקה הסתיימה באמצעות השיטה dataScans.get. כדי לאחזר את התוצאות המלאות, כולל התובנות וסטטוס הפרסום, צריך להגדיר את הפרמטר view לערך FULL.

משתמשים במזהה המשימה כדי לאחזר את הסטטוס שלה. לדוגמה:

gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID?view=FULL

הפעולה מסתיימת כשהסטטוס הוא SUCCEEDED או FAILURE.

תשובה על משימה שהושלמה בהצלחה מכילה את התובנות שנוצרו בשדה dataDocumentationResult.

אימות הפרסום ב-Knowledge Catalog

אם הערך של catalog_publishing_enabled הוא true, התובנות מתפרסמות ב-Knowledge Catalog באופן אסינכרוני אחרי שמשימת סריקת הנתונים מסתיימת. כדי לוודא שהתובנות נשמרו, משתמשים ב-Dataplex API כדי לבדוק את ההיבטים של מערך הנתונים.

התובנות נוצרות מסריקת הנתונים ברמת מערך הנתונים, אבל הקישורים שנוצרים נשמרים בין הטבלאות שהם מקשרים ביניהן. כדי לאמת את הקשרים האלה, משתמשים ב-lookupEntryLinks method כדי לאחזר את קישורי הרשומה שמשויכים לרשומה ספציפית בטבלה.

כדי לאחזר מטא-נתונים של מערך הנתונים ב-BigQuery, משתמשים בשיטה entries.get. כדי לכלול את כל ההיבטים, מגדירים את הפרמטר view לערך FULL. לדוגמה:

gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entries/bigquery.googleapis.com/projects/DATASET_PROJECT_ID/datasets/DATASET_ID?view=FULL

מחליפים את מה שכתוב בשדות הבאים:

  • PROJECT_ID: מזהה הפרויקט Cloud de Confiance by S3NSשבו הוגדר DataScan
  • LOCATION: האזור שבו נמצאת קבוצת הרשומות
  • DATASET_PROJECT_ID: המזהה של פרויקט Cloud de Confiance by S3NSשבו נמצא מערך הנתונים ב-BigQuery
  • DATASET: המזהה של מערך הנתונים ב-BigQuery

אם הפרסום ב-Knowledge Catalog מצליח, ההיבטים הבאים מצורפים למערך הנתונים ב-BigQuery:

  • תיאורים: מכיל תיאורים של מערך הנתונים שנוצרו על ידי AI
  • Queries: מכיל שאילתות SQL רלוונטיות שקשורות למערך הנתונים
  • קשרים: נשמרים כקישורי כניסה בין הטבלאות שקיימות במערך הנתונים

הצגה ושמירה של תיאור מערך הנתונים

‫Gemini יוצר תיאור בשפה טבעית של מערך הנתונים, מסכם את סוגי הטבלאות שהוא מכיל ואת התחום העסקי שהוא מייצג. כדי לשמור את התיאור הזה במטא-נתונים של מערך הנתונים, לוחצים על שמירה בפרטים.

אפשר לערוך את התיאור לפני ששומרים את הפרטים.

עיון בגרף הקשרים

הגרף Relationships מספק ייצוג חזותי של הקשר בין הטבלאות במערך הנתונים. הוא מציג את 10 הטבלאות הכי מקושרות כצמתים, עם קווים שמייצגים את הקשרים ביניהן.

  • כדי לראות פרטים על קשר הגומלין, כמו העמודות שמקשרות בין שתי טבלאות, מעבירים את העכבר מעל הקצה שמקשר בין צמתי הטבלה.
  • כדי לשנות את סידור התרשים לטובת נראות טובה יותר, גוררים את הצמתים של הטבלה.

שימוש בטבלת הקשרים

בטבלת קשרי הגומלין מפורטים קשרי הגומלין שזוהו בפורמט טבלאי. כל שורה מייצגת קשר בין שתי טבלאות, ומציגה את טבלת המקור והעמודה, ואת טבלת היעד והעמודה. בעמודה מקור מצוין איך נקבע קשר הגומלין:

  • הוסק על ידי מודל שפה גדול (LLM). קשרים ש-Gemini מסיק על סמך שמות ותיאורים של טבלאות ועמודות במערך הנתונים.
  • מבוסס על שימוש. קשרים שחולצו מיומני שאילתות, על סמך הצטרפויות תכופות.
  • מוגדר על ידי סכימה. קשרים שנגזרים ממיפויים קיימים של מפתח ראשי ומפתח זר בסכימת הטבלה.

אפשר לסנן את הקשרים של טבלה ספציפית או לשלוח משוב על איכות הקשרים שזוהו. כדי לייצא את תיאור מערך הנתונים והקשרים שנוצרו לקובץ JSON, לוחצים על ייצוא ל-JSON.

שימוש בהמלצות לשאילתות

על סמך הקשרים שזוהו, Gemini יוצר שאילתות לדוגמה. אלה שאלות בשפה טבעית עם שאילתות SQL תואמות שמבצעות איחוד של כמה טבלאות במערך הנתונים.

  1. כדי לראות שאילתת SQL, לוחצים על שאלה.

  2. כדי לפתוח את השאילתה בעורך השאילתות של BigQuery, לוחצים על העתקה לשאילתה. אחרי כן תוכלו להריץ את השאילתה או לשנות אותה.

  3. כדי לשאול שאילתת המשך, לוחצים על Ask a follow-up. כך ייפתח קנבס נתונים בלי שם, שבו תוכלו להתכתב בצ'אט עם Gemini כדי לחקור את הנתונים.

ניהול תובנות שנוצרו

אחרי שיוצרים תובנות לגבי מערך נתונים, אפשר לנהל, לעדכן או למחוק אותן ב-Knowledge Catalog. מידע נוסף מופיע במאמר בנושא ניהול תובנות לגבי מערכי נתונים.

המאמרים הבאים