מבוא לטעינה, לטרנספורמציה ולייצוא של נתונים

במאמר הזה מתוארים הגישות לשילוב נתונים כדי לטעון ולשנות נתונים ב-BigQuery באמצעות התהליכים extract, load, transform (חילוץ, טעינה, טרנספורמציה) או extract, transform, load (חילוץ, טרנספורמציה, טעינה). בנוסף, מוסבר איך לייצא נתונים מ-BigQuery כדי להחיל תובנות במערכות אחרות, בתהליך שנקרא ETL הפוך.

ההבדלים בין ELT ל-ETL

מקובל לבצע טרנספורמציה של הנתונים לפני או אחרי הטעינה שלהם ל-BigQuery. החלטה חשובה היא אם לבצע טרנספורמציה של הנתונים לפני הטעינה שלהם ל-BigQuery (גישת חילוץ-טרנספורמציה-טעינה או ETL) או לטעון את הנתונים הגולמיים ל-BigQuery ולבצע טרנספורמציות באמצעות BigQuery (גישת חילוץ-טעינה-טרנספורמציה או ELT).

בתרשים הבא מוצגות האפשרויות השונות לשילוב נתונים ב-BigQuery – באמצעות ELT או ETL.

עץ החלטה של מוצרים שמשמשים בתהליכי עבודה של ELT או ETL לשילוב נתונים ב-BigQuery

באופן כללי, אנחנו ממליצים לרוב הלקוחות על גישת ה-ELT. תהליך העבודה של ELT מחלק את שילוב הנתונים המורכב לשני חלקים שקל לנהל – חילוץ וטעינה, ואז טרנספורמציה. המשתמשים יכולים לבחור מתוך מגוון שיטות לטעינת נתונים שמתאימות לצרכים שלהם. אחרי שהנתונים נטענים ל-BigQuery, משתמשים שמכירים SQL יכולים לפתח צינורות להמרת נתונים באמצעות כלים כמו Dataform.

בקטעים הבאים מפורט כל אחד מתהליכי העבודה.

טעינה וטרנספורמציה של נתונים

מקובל לבצע טרנספורמציה של הנתונים לפני או אחרי הטעינה שלהם ל-BigQuery. בקטעים הבאים מתוארות שתי גישות נפוצות לשילוב נתונים: ETL ו-ELT.

גישה לשילוב נתונים מסוג ELT

בגישת החילוץ-טעינה-טרנספורמציה (ELT), שילוב הנתונים מתבצע בשני שלבים נפרדים:

  • חילוץ וטעינה של נתונים
  • טרנספורמציה של נתונים

לדוגמה, אפשר לחלץ ולטעון נתונים ממקור קובץ JSON לטבלה ב-BigQuery. לאחר מכן, אפשר להשתמש בצינורות כדי לחלץ שדות ולהפוך אותם לטבלאות יעד.

גישת ה-ELT יכולה לפשט את תהליך העבודה של שילוב הנתונים בדרכים הבאות:

  • מבטל את הצורך בכלים אחרים לעיבוד נתונים
  • מפצל את תהליך שילוב הנתונים המורכב לשני חלקים שקל לנהל
  • מנצל באופן מלא את היכולות של BigQuery כדי להכין, לשנות ולבצע אופטימיזציה של הנתונים בהיקף גדול

חילוץ וטעינה של נתונים

בגישה של שילוב נתונים מסוג ELT, אתם מחלצים נתונים ממקור נתונים וטוענים אותם ל-BigQuery באמצעות אחת מהשיטות הנתמכות לטעינה או לגישה לנתונים חיצוניים.

שינוי נתונים ב-BigQuery

אחרי טעינת הנתונים ל-BigQuery, אפשר להכין ולשנות את הנתונים באמצעות הכלים הבאים:

  • כדי ליצור, לבדוק, לתעד ולתזמן צינורות מתקדמים לטרנספורמציה של נתונים ב-SQL בשיתוף פעולה, אפשר להשתמש ב-Dataform.
  • כדי להפעיל תהליכי עבודה קטנים יותר של טרנספורמציה של נתונים, שכוללים קוד SQL, מחברות Python או הכנת נתונים לפי לוח זמנים, משתמשים בצינורות נתונים של BigQuery.
  • כדי לנקות את הנתונים לניתוח, משתמשים בהכנת נתונים משופרת באמצעות AI.

כל אחד מהכלים האלה מבוסס על Dataform API.

מידע נוסף זמין במאמר מבוא לטרנספורמציות.

גישה לשילוב נתונים מסוג ETL

בגישת החילוץ, השינוי והטעינה (ETL), אתם מחלצים ומשנים את הנתונים לפני שהם מגיעים ל-BigQuery. הגישה הזו מועילה אם כבר יש לכם תהליך קיים להמרת נתונים, או אם אתם רוצים לצמצם את השימוש במשאבים ב-BigQuery.

Cloud Data Fusion יכול לעזור לכם בתהליך ה-ETL. בנוסף, BigQuery פועל עם שותפים של צד שלישי שמבצעים טרנספורמציה של נתונים וטוענים אותם ל-BigQuery.

ייצוא נתונים

אחרי שמעבדים ומנתחים את הנתונים ב-BigQuery, אפשר לייצא את התוצאות כדי להשתמש בהן במערכות אחרות. ‫BigQuery תומך בייצואים הבאים:

  • ייצוא תוצאות השאילתה לקובץ מקומי, ל-Google Drive או ל-Google Sheets
  • ייצוא טבלאות או תוצאות של שאילתות אל Cloud Storage,‏ Bigtable,‏ Spanner,‏ AlloyDB ל-PostgreSQL ו-Pub/Sub

התהליך הזה נקרא ETL הפוך.

מידע נוסף זמין במאמר מבוא לייצוא נתונים ב-BigQuery.

המאמרים הבאים