מבוא לטעינה, לטרנספורמציה ולייצוא של נתונים

במאמר הזה מתוארים הגישות לשילוב נתונים כדי לטעון ולשנות נתונים ב-BigQuery באמצעות תהליכי חילוץ, טעינה ושינוי (ELT) או חילוץ, שינוי וטעינה (ETL). בנוסף, מוסבר איך לייצא נתונים מ-BigQuery כדי להחיל תובנות במערכות אחרות, בתהליך שנקרא ETL הפוך.

החלטה בין ELT ל-ETL

מקובל לבצע טרנספורמציה של הנתונים לפני או אחרי הטעינה שלהם ל-BigQuery. החלטה חשובה היא אם לבצע טרנספורמציה של הנתונים לפני הטעינה שלהם ל-BigQuery (גישת חילוץ-טרנספורמציה-טעינה או ETL) או לטעון את הנתונים הגולמיים ל-BigQuery ולבצע טרנספורמציות באמצעות BigQuery (גישת חילוץ-טעינה-טרנספורמציה או ELT).

בתרשים הבא מוצגות האפשרויות השונות לשילוב נתונים ב-BigQuery – באמצעות ELT או ETL.

עץ החלטה של מוצרים שמשמשים בתהליכי עבודה של ELT או ETL לשילוב נתונים ב-BigQuery

באופן כללי, אנחנו ממליצים לרוב הלקוחות על גישת ה-ELT. תהליך העבודה של ELT מחלק את שילוב הנתונים המורכב לשני חלקים שקל לנהל – חילוץ וטעינה, ואז טרנספורמציה. המשתמשים יכולים לבחור מתוך מגוון שיטות לטעינת נתונים שמתאימות לצרכים שלהם. אחרי שהנתונים נטענים ל-BigQuery, משתמשים שמכירים SQL יכולים לפתח צינורות להמרת נתונים באמצעות כלים כמו Dataform.

בקטעים הבאים מפורט כל אחד מתהליכי העבודה.

טעינה וטרנספורמציה של נתונים

מקובל לבצע טרנספורמציה של הנתונים לפני או אחרי הטעינה שלהם ל-BigQuery. בקטעים הבאים מתוארות שתי גישות נפוצות לשילוב נתונים: ETL ו-ELT.

גישה לשילוב נתונים מסוג ELT

בגישת החילוץ-טעינה-טרנספורמציה (ELT), שילוב הנתונים מתבצע בשני שלבים נפרדים:

  • חילוץ וטעינה של נתונים
  • טרנספורמציה של נתונים

לדוגמה, אפשר לחלץ ולטעון נתונים ממקור קובץ JSON לטבלה ב-BigQuery. לאחר מכן, תוכלו להשתמש בצינורות כדי לחלץ שדות ולהפוך אותם לטבלאות יעד.

גישת ה-ELT יכולה לפשט את תהליך העבודה של שילוב הנתונים בדרכים הבאות:

  • מבטל את הצורך בכלים אחרים לעיבוד נתונים
  • הכלי מפצל את תהליך שילוב הנתונים, שלרוב הוא מורכב, לשני חלקים שקל לנהל
  • מנצל באופן מלא את היכולות של BigQuery כדי להכין, לשנות ולבצע אופטימיזציה של הנתונים שלכם בהיקף גדול

חילוץ וטעינה של נתונים

בגישה של שילוב נתונים מסוג ELT, אתם מחלצים נתונים ממקור נתונים ומטעינים אותם ל-BigQuery באמצעות אחת השיטות הנתמכות לטעינה או לגישה לנתונים חיצוניים.

שינוי נתונים ב-BigQuery

אחרי טעינת הנתונים ל-BigQuery, אפשר להכין את הנתונים ולשנות אותם באמצעות הכלים הבאים:

  • כדי ליצור, לבדוק, לתעד ולתזמן צינורות מתקדמים לטרנספורמציה של נתונים ב-SQL בשיתוף פעולה, אפשר להשתמש ב-Dataform.
  • אם יש לכם תהליכי עבודה קטנים יותר של טרנספורמציה של נתונים שכוללים הפעלה של קוד SQL, מחברות Python או הכנת נתונים לפי לוח זמנים, כדאי להשתמש בצינורות נתונים של BigQuery.
  • כדי לנקות את הנתונים לניתוח, משתמשים בהכנת נתונים משופרת באמצעות AI.

כל אחד מהכלים האלה מבוסס על Dataform API.

מידע נוסף זמין במאמר מבוא לטרנספורמציות.

גישה לשילוב נתונים באמצעות ETL

בגישת החילוץ, השינוי והטעינה (ETL), אתם מחלצים ומשנים את הנתונים לפני שהם מגיעים ל-BigQuery. הגישה הזו מועילה אם כבר יש לכם תהליך קיים להמרת נתונים, או אם אתם רוצים לצמצם את השימוש במשאבים ב-BigQuery.

Cloud Data Fusion יכול לעזור לכם בתהליך ה-ETL. בנוסף, BigQuery פועל עם שותפים של צד שלישי שמבצעים טרנספורמציה של נתונים וטוענים אותם ל-BigQuery.

ייצוא נתונים

אחרי שמעבדים ומנתחים את הנתונים ב-BigQuery, אפשר לייצא את התוצאות כדי להשתמש בהן במערכות אחרות. ‫BigQuery תומך בייצואים הבאים:

  • ייצוא תוצאות השאילתה לקובץ מקומי, ל-Google Drive או ל-Google Sheets
  • ייצוא טבלאות או תוצאות של שאילתות אל Cloud Storage,‏ Bigtable,‏ Spanner ו-Pub/Sub

התהליך הזה נקרא ETL הפוך.

מידע נוסף זמין במאמר מבוא לייצוא נתונים ב-BigQuery.

המאמרים הבאים