הכנת נתונים באמצעות Gemini

במאמר הזה מוסבר איך לנקות ולבצע טרנספורמציה של נתונים במסגרת הכנת נתונים ב-BigQuery באמצעות הצעות לקוד SQL מ-Gemini.

מידע נוסף זמין במאמר סקירה כללית על הכנת נתונים ב-BigQuery.

לפני שמתחילים

התחלת סשן של הכנת נתונים

פותחים את כלי ההכנה של נתוני BigQuery על ידי יצירת הכנה חדשה של נתונים, התחלת הכנה מטבלה קיימת או מקובץ ב-Cloud Storage או ב-Google Drive, או פתיחת הכנה קיימת של נתונים. מידע נוסף על מה שקורה כשיוצרים הכנה של נתונים זמין במאמר נקודות כניסה להכנת נתונים.

בדף BigQuery, אפשר לעבור לעורך הכנת הנתונים באחת מהדרכים הבאות:

יצירת משאב חדש

כדי ליצור הכנת נתונים חדשה ב-BigQuery, פועלים לפי השלבים הבאים:

  1. במסוף Cloud de Confiance , עוברים לדף BigQuery.
    כניסה ל-BigQuery
  2. עוברים לרשימה יצירת חדש ולוחצים על הכנת נתונים. הכלי לעריכת נתונים מוצג בכרטיסייה חדשה של הכנת נתונים ללא שם.
  3. בסרגל החיפוש של העורך, מזינים את שם הטבלה או מילות מפתח ובוחרים טבלה. ייפתח העורך להכנת הנתונים לטבלה, שבו מוצגת תצוגה מקדימה של הנתונים בכרטיסייה נתונים, וקבוצה ראשונית של הצעות להכנת הנתונים מ-Gemini.
  4. אופציונלי: כדי לפשט את התצוגה, לוחצים על מסך מלא מסך מלא.
  5. אופציונלי: כדי לראות פרטים על הכנת הנתונים, היסטוריית גרסאות, להוסיף תגובות חדשות או להשיב לתגובות קיימות, משתמשים בסרגל הכלים.

    כדאי לעיין בסרגל הכלים להכנת הנתונים.

    התכונה תגובות בסרגל הכלים נמצאת בגרסת טרום-השקה. כדי לשלוח משוב או לבקש תמיכה בנוגע לתכונה הזו, אפשר לשלוח אימייל לכתובת bqui-workspace-pod@google.com.

יצירה מטבלה

כדי ליצור הכנת נתונים חדשה מטבלה קיימת, פועלים לפי השלבים הבאים:

  1. במסוף Cloud de Confiance , עוברים לדף BigQuery.
    כניסה ל-BigQuery
  2. בחלונית הימנית, לוחצים על כלי הניתוחים.
  3. בחלונית Explorer, מרחיבים את הפרויקט, לוחצים על Datasets ובוחרים מערך נתונים.
  4. כדי לפתוח את הטבלה, לוחצים על more_vert פעולות > פתיחה ב-> הכנת נתונים. ייפתח עורך להכנת הנתונים לטבלה, שבו מוצגת תצוגה מקדימה של הנתונים בכרטיסייה נתונים, וקבוצה ראשונית של הצעות להכנת הנתונים מ-Gemini.
  5. אופציונלי: כדי לפשט את התצוגה, לוחצים על מסך מלא מסך מלא.
  6. אופציונלי: כדי לראות פרטים על הכנת הנתונים, היסטוריית גרסאות, להוסיף תגובות חדשות או להשיב לתגובות קיימות, משתמשים בסרגל הכלים.

    כדאי לעיין בסרגל הכלים להכנת הנתונים.

    התכונה תגובות בסרגל הכלים נמצאת בגרסת טרום-השקה. כדי לשלוח משוב או לבקש תמיכה בנוגע לתכונה הזו, אפשר לשלוח אימייל לכתובת bqui-workspace-pod@google.com.

יצירה מקובץ

כדי ליצור הכנת נתונים חדשה מקובץ ב-Cloud Storage או ב-Google Drive, פועלים לפי השלבים הבאים:

טוענים את הקובץ

  1. במסוף Cloud de Confiance , עוברים לדף BigQuery.
    כניסה ל-BigQuery
  2. ברשימה יצירת חדש, לוחצים על הכנת נתונים. הכלי לעריכת נתונים מוצג בכרטיסייה חדשה של הכנת נתונים ללא שם.
  3. ברשימת מקורות הנתונים, לוחצים על Google Cloud Storage או על Google Drive. תיפתח תיבת הדו-שיח Prepare data (הכנת נתונים).
  4. בקטע מקור, בוחרים את הקובץ:
    • Cloud Storage: בוחרים את הקובץ מקטגוריה של Cloud Storage או מזינים את הנתיב של המקור. לדוגמה, מזינים נתיב לקובץ ה-CSV: STORAGE_BUCKET_NAME/FILE_NAME.csv. יש תמיכה בחיפושים עם תו כללי, כמו *.csv.
    • Google Drive: בוחרים את הקובץ מ-Google Drive על ידי הזנת ה-URI שלו. כדי לטעון קבוצת משנה של הנתונים האלה, אפשר להזין שם של גיליון ספציפי וטווח.

    פורמט הקובץ מזוהה באופן אוטומטי. הפורמטים הנתמכים הם Avro,‏ CSV,‏ JSONL,‏ ORC ו-Parquet. סוגי קבצים תואמים אחרים, כמו DAT,‏ TSV ו-TXT, נקראים כפורמט CSV. האפשרות Google Drive תומכת גם בפורמט Google Sheets.

  5. מגדירים את טבלת הביניים החיצונית שאליה מעלים את הקבצים. בקטע Staging table, מזינים את שמות הפרויקט, מערך הנתונים והטבלה של הטבלה החדשה.
  6. בקטע סכימה, בודקים את הסכימה. ‫Gemini בודק את הקובץ כדי למצוא שמות של עמודות. אם לא נמצאו שגיאות, יוצגו הצעות.

    כברירת מחדל, קובץ הכנת הנתונים טוען נתונים כמחרוזות. אפשר להגדיר סוגי נתונים ספציפיים יותר כשמכינים את נתוני הקובץ.
  7. אופציונלי: באפשרויות מתקדמות, אפשר להוסיף מידע נוסף, כמו מספר השגיאות שמותרות לפני שהעבודה נכשלת. ‫Gemini מספק אפשרויות נוספות על סמך התוכן של הקובץ.
  8. אופציונלי: כדי לראות תצוגה מקדימה של טבלת הביניים החדשה בכלי לעריכת הכנת הנתונים, בוחרים באפשרות יצירת תצוגה מקדימה.
  9. לוחצים על יצירה. ייפתח העורך להכנת נתונים של הקובץ, שבו מוצגת תצוגה מקדימה של הנתונים בכרטיסייה נתונים, וסט ראשוני של הצעות להכנת נתונים מ-Gemini.
  10. אופציונלי: כדי לפשט את התצוגה, לוחצים על מסך מלא מסך מלא.
  11. אופציונלי: כדי לראות את פרטי הכנת הנתונים, היסטוריית הגרסאות, להוסיף תגובות חדשות או להשיב לתגובות קיימות, משתמשים בסרגל הכלים.

    כדאי לעיין בסרגל הכלים להכנת הנתונים.

    התכונה תגובות בסרגל הכלים נמצאת בגרסת טרום-השקה. כדי לשלוח משוב או לבקש תמיכה בנוגע לתכונה הזו, אפשר לשלוח אימייל לכתובת bqui-workspace-pod@google.com.

הכנת הקובץ

בתצוגת הנתונים, מכינים את הנתונים הזמניים שטענתם לפי השלבים הבאים:

  1. אופציונלי: כדי להגדיר סוגי נתונים חזקים יותר לעמודות רלוונטיות, אפשר לעיין ברשימת ההצעות להמרות או לבחור עמודה וליצור עבורה הצעות.
  2. אופציונלי: מגדירים כללי אימות. מידע נוסף מופיע במאמר הגדרת טבלת השגיאות והוספת כלל אימות.
  3. הוספת טבלת יעד.
  4. כדי לטעון את הנתונים לטבלת היעד, מריצים את הכנת הנתונים.
  5. אופציונלי: תזמון ההרצה של הכנת הנתונים.
  6. אופציונלי: אופטימיזציה של הכנת הנתונים באמצעות עיבוד מצטבר של הנתונים.

פתיחת מסמך קיים

כדי לפתוח את הכלי לעריכת הכנת נתונים קיימת, פועלים לפי השלבים הבאים:

  1. במסוף Cloud de Confiance , עוברים לדף BigQuery.
    כניסה ל-BigQuery
  2. בחלונית הימנית, לוחצים על כלי הניתוחים.
  3. בחלונית Explorer לוחצים על שם הפרויקט ואז על Data preparations.
  4. בוחרים את ההכנה הקיימת של הנתונים. מוצג תרשים של צינור עיבוד הנתונים.
  5. בוחרים אחד מהצמתים בתרשים. ייפתח העורך להכנת הנתונים של הטבלה, שבו מוצגת תצוגה מקדימה של הנתונים בכרטיסייה נתונים, וקבוצה ראשונית של הצעות להכנת הנתונים מ-Gemini.
  6. אופציונלי: כדי לפשט את התצוגה, לוחצים על מסך מלא מסך מלא.
  7. אופציונלי: כדי לראות פרטים על הכנת הנתונים, היסטוריית גרסאות, להוסיף תגובות חדשות או להשיב לתגובות קיימות, משתמשים בסרגל הכלים.

    כדאי לעיין בסרגל הכלים להכנת הנתונים.

    התכונה תגובות בסרגל הכלים נמצאת בגרסת טרום-השקה. כדי לשלוח משוב או לבקש תמיכה בנוגע לתכונה הזו, אפשר לשלוח אימייל לכתובת bqui-workspace-pod@google.com.

הוספת שלבים להכנת הנתונים

הכנת הנתונים מתבצעת בשלבים. אתם יכולים לראות תצוגה מקדימה של השלבים ש-Gemini מציע או להחיל אותם. אתם יכולים גם לשפר את ההצעות או להוסיף שלבים משלכם.

איך משתמשים בהצעות של Gemini ומשפרים אותן

כשפותחים את כלי ההכנה של הנתונים עבור הטבלה, Gemini בודק את הנתונים ואת הסכימה מהטבלה שנטענה, ומציע הצעות לסינון ולשינוי. ההצעות מופיעות בכרטיסים ברשימה Steps (שלבים).

בתמונה הבאה אפשר לראות איפה אפשר ליישם את השלבים ש-Gemini מציע ולשפר אותם:

תצוגת נתונים בכלי לעריכת נתונים, עם אפשרויות לתצוגה מקדימה, לעריכה או להחלת הצעות מ-Gemini.

כדי להחיל הצעה של Gemini כשלב בהכנת הנתונים:

  1. בתצוגת הנתונים, לוחצים על שם של עמודה או על תא מסוים. ‫Gemini יוצר הצעות לסינון ולשינוי הנתונים.
  2. אופציונלי: כדי לשפר את ההצעות, אפשר לערוך את הערכים של תא אחד עד שלושה תאים בטבלה כדי להראות איך הערכים בעמודה צריכים להיראות. לדוגמה, מזינים תאריך בפורמט שבו רוצים שכל התאריכים יוצגו. ‫Gemini ייצור הצעות חדשות על סמך השינויים שביצעתם.

    בתמונה הבאה אפשר לראות איך עורכים ערכים כדי לשפר את השלבים ש-Gemini מציע:

    כדי לשפר את ההצעות, אפשר לערוך את הערכים בתאים כדי להראות איך הערכים בעמודה צריכים להיראות.

  3. בוחרים כרטיס הצעה.

    1. אופציונלי: כדי לראות תצוגה מקדימה של התוצאה בכרטיס ההצעה, לוחצים על תצוגה מקדימה.
    2. אופציונלי: כדי לשנות את כרטיס ההצעה באמצעות שפה טבעית, לוחצים על עריכה.
  4. לוחצים על אישור.

הוספת שלבים באמצעות שפה טבעית או ביטויי SQL

אם ההצעות הקיימות לא מתאימות לצרכים שלכם, מוסיפים שלב. בוחרים עמודות או סוג של שלב, ואז מתארים את מה שרוצים בשפה טבעית.

הוספת טרנספורמציה

  1. בתצוגת הנתונים או הסכימה, בוחרים באפשרות שינוי. אפשר גם לבחור עמודות או להוסיף דוגמאות כדי לעזור ל-Gemini להבין את השינוי בנתונים.
  2. בשדה Description (תיאור), מזינים הנחיה כמו Convert the state column to uppercase.
  3. לוחצים על שליחה שליחה.

    ‫Gemini יוצר ביטוי SQL ותיאור חדש על סמך ההנחיה.

  4. ברשימה Target column (עמודת יעד), בוחרים או מזינים שם של עמודה.

  5. אופציונלי: כדי לעדכן את ביטוי ה-SQL, משנים את ההנחיה ולוחצים על שליחה שליחה, או מזינים ביטוי SQL באופן ידני.

  6. אופציונלי: לוחצים על תצוגה מקדימה ובודקים את השלב.

  7. לוחצים על אישור.

השטחת עמודות JSON

כדי להקל על הגישה לצמדי מפתח-ערך ועל הניתוח שלהם, אפשר לשטח עמודות JSON. לדוגמה, אם יש לכם עמודת JSON בשם user_properties שמכילה את המפתחות country ו-device_type, שיטוח העמודה הזו יחלץ את country ו-device_type לעמודות נפרדות ברמה העליונה, כך שתוכלו להשתמש בהן ישירות בניתוח.

‫Gemini for BigQuery מציע פעולות שמחלצות שדות רק מהרמה העליונה של ה-JSON. אם השדות שחולצו מכילים אובייקטים נוספים מסוג JSON, אפשר לשטח אותם בשלבים נוספים כדי לגשת לתוכן שלהם.

  1. בתצוגת הנתונים של טבלת מקור JSON, בוחרים עמודה או תאים.
  2. לוחצים על השטחה כדי ליצור הצעות.
  3. אופציונלי: כדי לעדכן את ביטוי ה-SQL, אפשר להזין ביטוי SQL באופן ידני.
  4. אופציונלי: לוחצים על תצוגה מקדימה ובודקים את השלב.
  5. לוחצים על אישור.

השטחת הנתונים מתבצעת באופן הבא:

  • האפשרות Flatten מופיעה בתצוגת הנתונים אחרי שבוחרים תאים או עמודות שמכילים JSON. היא לא מופיעה כברירת מחדל כשלוחצים על הוספת שלב.
  • אם מפתח JSON לא מופיע בשורות שנבחרו, ההצעה שנוצרת לא מכילה את המפתח הזה. הבעיה הזו עלולה לגרום לכך שחלק מהעמודות לא ייכללו כשמבצעים שטוח של הנתונים.
  • אם יש התנגשות בין שמות של עמודות במהלך השטחת הנתונים, השמות החוזרים של העמודות מסתיימים בפורמט הבא: _<i>. לדוגמה, אם כבר קיימת עמודה בשם address, השם החדש של העמודה המפושטת הוא address_1.
  • שמות העמודות המפושטות תואמים למוסכמות למתן שמות לעמודות ב-BigQuery.
  • אם משאירים את השדה של מפתח JSON ריק, פורמט ברירת המחדל של שם העמודה הוא f<i>_.

השטחה של עמודות RECORD או STRUCT

כדי להקל על הגישה לשדות מקוננים ועל הניתוח שלהם, אפשר לשטח עמודות עם סוג הנתונים RECORD או STRUCT. לדוגמה, אם יש לכם רשומה event_log שמכילה את השדות timestamp ו-action, פעולת השטחה של הרשומה הזו מחלצת את timestamp ו-action לעמודות נפרדות ברמה העליונה, כדי שתוכלו לבצע בהן טרנספורמציה ישירות.

במהלך התהליך הזה, המערכת מחלצת את כל העמודות המקוננות מהרשומה, עד לעומק של 10 רמות, ויוצרת עמודה חדשה לכל אחת מהן. שמות העמודות החדשים נוצרים משילוב של שם עמודת ההורה עם שם השדה המקונן, כשהם מופרדים באמצעות קו תחתון (לדוגמה, PARENT-COLUMN-NAME_FIELD-NAME). העמודה המקורית מושמטת. כדי לשמור את העמודה המקורית, אפשר למחוק את השלב Drop column מהרשימה Applied steps.

כדי לשטח רשומות:

  1. בתצוגת הנתונים של טבלת מקור, בוחרים עמודת רשומה.
  2. לוחצים על השטחה כדי ליצור הצעות.
  3. אופציונלי: כדי לעדכן את ביטוי ה-SQL, אפשר להזין ביטוי SQL באופן ידני.
  4. אופציונלי: לוחצים על תצוגה מקדימה ובודקים את השלב.
  5. לוחצים על אישור.

ביטול הקינון של מערכים

ביטול הקינון מרחיב כל רכיב במערך לשורה משלו, ומשכפל את ערכי העמודות המקוריים האחרים לכל שורה חדשה. הפעולה הזו שימושית לניתוח עמודות שמכילות מערכים עם מספר משתנה של רכיבים, כמו רשימות של תגובות API.

אפשר לבטל את הקינון של סוגי העמודות הבאים:

  • סוג הנתונים ARRAY: ביטול הקינון מתבצע לרכיבים של סוג הבסיס של המערך. לדוגמה, ביטול הקינון של ARRAY<STRUCT<...>> יוצר רכיבים מסוג STRUCT.
  • עמודות JSON: הפונקציה הזו מבטלת את הקינון של מערכי JSON בעמודה וממירה אותם לרכיבים מסוג JSON.

כשמבטלים את הקינון של מערך, נוצרת עמודה חדשה שמכילה את הרכיבים הלא מקוננים. כברירת מחדל, עמודת המערך המקורית מושמטת. כדי לשמור את העמודה המקורית, מוחקים את השלב הסרת עמודה מהרשימה השלבים שהוחלו.

כדי לבטל את הקינון של מערכים:

  1. בתצוגת הנתונים של טבלת מקור, בוחרים עמודה ARRAY.
  2. לוחצים על ביטול הקיבוץ כדי ליצור הצעות.
  3. אופציונלי: כדי לעדכן את ביטוי ה-SQL, אפשר להזין ביטוי SQL באופן ידני.
  4. אופציונלי: לוחצים על תצוגה מקדימה ובודקים את השלב.
  5. לוחצים על אישור.

סינון שורות

כדי להוסיף מסנן שמסיר שורות, פועלים לפי השלבים הבאים:

  1. בתצוגת הנתונים או הסכימה, בוחרים באפשרות Filter (סינון). אפשר גם לבחור עמודות כדי לעזור ל-Gemini להבין את מסנן הנתונים.
  2. בשדה Description (תיאור), מזינים הנחיה כמו Column ID should not be NULL.
  3. לוחצים על יצירה. ‫Gemini יוצר ביטוי SQL ותיאור חדש על סמך ההנחיה.
  4. אופציונלי: כדי לעדכן את ביטוי ה-SQL, משנים את ההנחיה ולוחצים על שליחה שליחה, או מזינים ביטוי SQL באופן ידני.
  5. אופציונלי: לוחצים על תצוגה מקדימה ובודקים את השלב.
  6. לוחצים על אישור.

פורמט של ביטוי סינון

ביטויי SQL למסננים שומרים על שורות שתואמות לתנאי שצוין. הפקודה הזו מקבילה לפקודה SELECT … WHERE SQL_EXPRESSION.

לדוגמה, כדי לשמור רשומות שבהן הערך בעמודה year גדול מ-2000 או שווה לו, התנאי הוא year >= 2000.

הביטויים צריכים להיות בהתאם לתחביר של SQL ב-BigQuery עבור הסעיף WHERE.

ביטול כפילויות בנתונים

כדי להסיר שורות כפולות מהנתונים:

  1. בתצוגת הנתונים או הסכימה, בוחרים באפשרות Deduplicate (ביטול כפילויות). ‫Gemini מספק הצעה ראשונית לביטול כפילויות.
  2. אופציונלי: כדי לשפר את ההצעה, מזינים תיאור חדש ולוחצים על שליחה שליחה.
  3. אופציונלי: כדי להגדיר ידנית את שלב ביטול הכפילויות, משתמשים באפשרויות הבאות:
    • ברשימה Record choosing (בחירת רשומה), בוחרים באחת מהשיטות הבאות:
      • First: לכל קבוצת שורות עם אותם ערכים של מפתח ביטול הכפילויות, השיטה הזו בוחרת את השורה הראשונה על סמך הביטוי ORDER BY ומסירה את השאר.
      • האחרון: לכל קבוצת שורות עם אותם ערכים של מפתח ביטול הכפילויות, השיטה הזו בוחרת את השורה האחרונה על סמך הביטוי ORDER BY ומסירה את השאר.
      • כל אחת: לכל קבוצת שורות עם אותם ערכים של מפתח לביטול כפילויות, השיטה הזו בוחרת שורה כלשהי מהקבוצה ומסירה את השאר.
      • Distinct: מסיר את כל השורות הכפולות בכל העמודות בטבלה.
    • בשדה מפתחות לביטול כפילויות, בוחרים עמודה אחת או יותר או ביטויים לזיהוי שורות כפולות. השדה הזה רלוונטי אם אסטרטגיית בחירת הרשומה היא First,‏ Last או Any.
    • בשדה Order by expression (סדר לפי ביטוי) מזינים ביטוי שמגדיר את סדר השורות. לדוגמה, כדי לבחור את השורה האחרונה, מזינים datetime DESC. כדי לבחור את השורה הראשונה לפי סדר אלפביתי של השם, מזינים שם של עמודה כמו last_name. הביטוי פועל לפי אותם כללים כמו ORDER BY הסעיף הסטנדרטי ב-BigQuery. השדה הזה רלוונטי רק אם אסטרטגיית בחירת הרשומה היא First או Last.
  4. אופציונלי: לוחצים על תצוגה מקדימה ובודקים את השלב.
  5. לוחצים על אישור.

מחיקת עמודה

כדי למחוק עמודה אחת או יותר מהכנת הנתונים, פועלים לפי השלבים הבאים:

  1. בתצוגת הנתונים או הסכימה, בוחרים את העמודות שרוצים להסיר.
  2. לוחצים על שחרור. שלב חדש של פעולה שהוחלה יתווסף לעמודות שנמחקו.

הוספת פעולת איחוד באמצעות Gemini

כדי להוסיף שלב של פעולת צירוף בין שני מקורות בהכנת הנתונים:

  1. בתצוגת הנתונים של צומת בהכנת הנתונים, עוברים לרשימה הצעות ולוחצים על האפשרות צירוף.
  2. בתיבת הדו-שיח הוספת איחוד, לוחצים על עיון ואז בוחרים את הטבלה השנייה שמשתתפת בפעולת האיחוד (נקראת הצד השמאלי של האיחוד).
  3. אופציונלי: בוחרים את סוג פעולת הצירוף שרוצים לבצע, כמו צירוף פנימי.
  4. בודקים את המידע על מפתח הצירוף שנוצר על ידי Gemini בשדות הבאים:

    • תיאור האיחוד: תיאור בשפה טבעית של ביטוי ה-SQL לפעולת האיחוד. כשעורכים את התיאור הזה ולוחצים על שליחה שליחה, Gemini מציע תנאי צירוף חדשים של SQL.
    • תנאי איחוד: ביטויי ה-SQL בתוך סעיף ON של פעולת האיחוד. אפשר להשתמש במגדירי המיקום L ו-R כדי להפנות לטבלאות המקוריות שמשמאל ומימין, בהתאמה. לדוגמה, כדי לצרף את העמודה customer_id מהטבלה הימנית לעמודה customer_id מהטבלה השמאלית, מזינים L.customerId = R.customerId. המסננים האלה לא תלויי אותיות רישיות.

  5. אופציונלי: כדי לשפר את ההצעות של Gemini, עורכים את השדה תיאור ההצטרפות ולוחצים על שליחה שליחה.

  6. אופציונלי: כדי לראות תצוגה מקדימה של הגדרות פעולת הצירוף של הכנת הנתונים, לוחצים על תצוגה מקדימה.

  7. לוחצים על אישור.

    נוצר שלב של פעולת הצטרפות. טבלת המקור שבחרתם (הצד השמאלי של הצירוף) ופעולת הצירוף משתקפים ברשימת השלבים שהוחלו ובצמתים בתצוגת הגרף של הכנת הנתונים.

נתונים מצטברים

  1. בתצוגת הנתונים או הסכימה, בוחרים באפשרות Aggregate (צבירה).
  2. בשדה Description (תיאור), מזינים הנחיה כמו Find the total revenue for a region.
  3. לוחצים על שליחה.

    ‫Gemini יוצר מפתחות לקיבוץ וביטויי צבירה על סמך ההנחיה.

  4. אופציונלי: עורכים את מפתחות הקיבוץ או את ביטויי הצבירה שנוצרו, אם צריך.

  5. אופציונלי: אפשר להוסיף ידנית מפתחות לקיבוץ וביטויי צבירה.

    • בשדה Grouping keys (מפתחות לקיבוץ), מזינים שם של עמודה או ביטוי. אם משאירים את השדה הזה ריק, הטבלה שמתקבלת כוללת שורה אחת. אם מזינים ביטוי, צריך להגדיר לו שם חלופי (סעיף AS), למשל EXTRACT(YEAR FROM order_date) AS order_year. אסור להשתמש בכפילויות.
    • בשדה Aggregation expressions (ביטויי צבירה), מזינים ביטוי צבירה עם כינוי (סעיף AS). לדוגמה: SUM(quantity) AS total_quantity. אפשר להזין כמה ביטויים מופרדים בפסיקים. אסור להשתמש בערכים כפולים. רשימת ביטויי הצבירה הנתמכים מופיעה במאמר בנושא פונקציות צבירה.
  6. אופציונלי: לוחצים על תצוגה מקדימה ובודקים את השלב.

  7. לוחצים על אישור.

הגדרת טבלת השגיאות והוספת כלל אימות

אפשר להוסיף מסנן שיוצר כלל אימות, ששולח שגיאות לטבלת שגיאות או גורם לכך שהרצת הכנת הנתונים תיכשל.

הגדרה של טבלת השגיאות

כדי להגדיר את טבלת השגיאות, צריך לבצע את השלבים הבאים:

  1. בכלי לעריכת הכנת הנתונים, עוברים לסרגל הכלים ולוחצים על סמל האפשרויות הנוספות > טבלת שגיאות.
  2. לוחצים על הפעלת טבלת שגיאות.
  3. מגדירים את מיקום הטבלה.
  4. אופציונלי: מגדירים את משך הזמן המקסימלי לשמירת שגיאות.
  5. לוחצים על Save.

הוספת כלל אימות

כדי להוסיף כלל אימות, פועלים לפי השלבים הבאים:

  1. בתצוגת הנתונים או הסכימה, לוחצים על האפשרות סינון. אפשר גם לבחור עמודות כדי לעזור ל-Gemini להבין את מסנן הנתונים.
  2. מזינים תיאור לשלב.
  3. מזינים ביטוי SQL בצורה של פסקה WHERE.
  4. אופציונלי: אם רוצים שהביטוי SQL ישמש ככלל אימות, מסמנים את תיבת הסימון Failed validation rows go to error table (שורות שהאימות שלהן נכשל מועברות לטבלת השגיאות). אפשר גם לשנות מסנן לאימות בסרגל הכלים של הכנת הנתונים. לשם כך לוחצים על סמל האפשרויות הנוספות > טבלת שגיאות.
  5. אופציונלי: לוחצים על תצוגה מקדימה ובודקים את השלב.
  6. לוחצים על אישור.

הוספה או שינוי של טבלת יעד

כדי להפעיל או לתזמן את הכנת הנתונים, צריך טבלת יעד. כדי להוסיף או לשנות טבלת יעד לפלט של הכנת הנתונים:

  1. בתצוגת הנתונים או הסכימה, לוחצים על יעד ברשימה הצעות.
  2. בוחרים את הפרויקט שבו מאוחסנת טבלת היעד.
  3. בוחרים אחת מקבוצות הנתונים או טוענים קבוצת נתונים חדשה.
  4. מזינים טבלת יעד. אם הטבלה לא קיימת, בשלב הכנת הנתונים נוצרת טבלה חדשה בהרצה הראשונה. מידע נוסף זמין במאמר בנושא מצב כתיבה.
  5. בוחרים את קבוצת הנתונים שלכם כקבוצת הנתונים של היעד.
  6. לוחצים על Save.

הצגת דגימת הנתונים והסכימה של שלב שהוחל

כדי לראות פרטים על דוגמה וסכימה בשלב מסוים בהכנת הנתונים:

  1. בכלי לעריכת הכנת הנתונים, עוברים לרשימה Steps ולוחצים על Applied steps.
  2. בוחרים שלב. יופיעו הכרטיסיות נתונים וסכימה, שבהן יוצגו דוגמת הנתונים והסכימה נכון לשלב הזה.

עריכת שלב שהוחל

כדי לערוך שלב שהוחל:

  1. בכלי לעריכת הכנת הנתונים, עוברים לרשימה Steps ולוחצים על Applied steps.
  2. בוחרים שלב.
  3. לצד השלב, לוחצים על more_vert סמל התפריט > עריכה.
  4. בתיבת הדו-שיח עריכת שלב שהוחל אפשר לבצע את הפעולות הבאות:
    • עורכים את התיאור של השלב.
    • כדי לקבל הצעות מ-Gemini, עורכים את התיאור ולוחצים על שליחה שליחה.
    • עורכים את ביטוי ה-SQL.
  5. בשדה Target column, בוחרים עמודה.
  6. אופציונלי: לוחצים על תצוגה מקדימה ובודקים את השלב.
  7. לוחצים על אישור.

מחיקת שלב שהוחל

כדי למחוק שלב שהוחל:

  1. בכלי לעריכת הכנת הנתונים, עוברים לרשימה Steps ולוחצים על Applied steps.
  2. בוחרים שלב.
  3. לוחצים על more_vert תפריט > מחיקה.

הרצת תהליך הכנת הנתונים

אחרי שמוסיפים את השלבים להכנת הנתונים, מגדירים את היעד ומתקנים את שגיאות האימות, אפשר להריץ בדיקות על מדגם של הנתונים, או לפרוס את השלבים ולתזמן הרצות של הכנת הנתונים. מידע נוסף זמין במאמר בנושא תזמון של הכנת נתונים.

רענון הדוגמאות להכנת נתונים

הנתונים בדגימה לא מתרעננים באופן אוטומטי. אם הנתונים בטבלאות המקוריות של הכנת הנתונים השתנו, אבל השינויים לא משתקפים במדגם הנתונים של ההכנה, לוחצים על סמל האפשרויות הנוספות > רענון המדגם.

המאמרים הבאים