מבוא לטרנספורמציה של נתונים
במאמר הזה מתוארות הדרכים השונות שבהן אפשר להמיר נתונים בטבלאות ב-BigQuery.
מידע נוסף על שילוב נתונים זמין במאמר מבוא לטעינה, לשינוי ולייצוא של נתונים.
שיטות לטרנספורמציה של נתונים
אפשר לבצע טרנספורמציה של נתונים ב-BigQuery בדרכים הבאות:
- משתמשים בשפת טיפול בנתונים (DML) כדי לשנות את הנתונים בטבלאות BigQuery.
- כדי לשפר את הביצועים והיעילות, אפשר להשתמש בתצוגות חומריות כדי לשמור במטמון באופן אוטומטי את התוצאות של שאילתה.
- אפשר להשתמש בשאילתות מתמשכות כדי לנתח נתונים נכנסים בזמן אמת ולהוסיף את שורות הפלט לטבלה ב-BigQuery או לייצא אותן ל-Pub/Sub או ל-Bigtable.
- אפשר להשתמש בצינורות נתונים של BigQuery או ב-Dataform כדי לפתח, לבדוק, לשלוט בגרסאות ולתזמן צינורות נתונים ב-BigQuery.
- כדי לנקות את הנתונים לצורך ניתוח, אפשר להשתמש בהכנת נתונים עם המלצות להמרת נתונים שנוצרו על ידי AI ומודעות להקשר. הכנת הנתונים מתבצעת באמצעות Dataform API.
בטבלה הבאה מוצגות המאפיינים השונים של כל שיטת טרנספורמציה.
| שיטת טרנספורמציה | יעד ההמרה | שיטת ההגדרה | תדירות הטרנספורמציה |
|---|---|---|---|
| שפת טיפול בנתונים (DML) | טבלה (במקום) | SQL DML | פעילויות שהמשתמשים יוזמים או מתוזמנות |
| תצוגות מהותיות | תצוגה מהותית | שאילתת SQL | רענון אוטומטי או ידני |
| שאילתות מתמשכות | Table, Pub/Sub topic, Bigtable table | שאילתת SQL עם EXPORT DATA | הערכה מתמשכת |
| Dataform | טבלה | Dataform core (SQLX) | מתוזמן (צינורות עיבוד נתונים) |
| צינורות נתונים של BigQuery | טבלה | צינורות נתונים של BigQuery | מתוזמן (צינורות) |
| הכנת נתונים | טבלה | כלי עריכה חזותי | מתוזמנת |
אפשר גם לבדוק את היסטוריית השינויים של טבלה ב-BigQuery כדי לבחון את הטרנספורמציות שבוצעו בטבלה בטווח זמן מסוים.
טרנספורמציה של נתונים באמצעות DML
אתם יכולים להשתמש בשפת טיפול בנתונים (DML) כדי לשנות את הנתונים בטבלאות BigQuery. הצהרות DML הן שאילתות GoogleSQL שמשנות נתונים קיימים בטבלה כדי להוסיף או למחוק שורות, לשנות נתונים בשורות קיימות או למזג נתונים עם ערכים מטבלה אחרת. יש תמיכה בטרנספורמציות של DML גם בטבלאות מחולקות.
אפשר להריץ כמה הצהרות DML בו-זמנית, כש-BigQuery מכניס לתור כמה הצהרות DML שמבצעות טרנספורמציה של הנתונים אחת אחרי השנייה. BigQuery מנהל את אופן ההפעלה של הצהרות DML מקבילות, על סמך סוג השינוי.
טרנספורמציה של נתונים באמצעות תצוגות מהותיות
תצוגות מהותיות הן תצוגות שמחושבות מראש ושומרות במטמון באופן תקופתי את התוצאות של שאילתת SQL, כדי לשפר את הביצועים והיעילות. מערכת BigQuery משתמשת בתוצאות שחושבו מראש מתצוגות חומריות, ובכל הזדמנות קוראת רק שינויים מטבלאות הבסיס כדי לחשב תוצאות עדכניות.
תצוגות חומריות מחושבות מראש ברקע כשטבלאות הבסיס משתנות. כל שינוי מצטבר בנתונים מטבלאות הבסיס מתווסף אוטומטית לתצוגות החומריות, ללא צורך בפעולה מצד המשתמש.
טרנספורמציה של נתונים באמצעות שאילתות מתמשכות
שאילתות מתמשכות הן הצהרות SQL שמופעלות באופן רציף. שאילתות רציפות מאפשרות לכם לנתח נתונים נכנסים ב-BigQuery בזמן אמת. אפשר להוסיף את שורות הפלט שנוצרו על ידי שאילתה מתמשכת לטבלה ב-BigQuery או לייצא אותן ל-Pub/Sub או ל-Bigtable.
טרנספורמציה של נתונים באמצעות Dataform
Dataform מאפשר לכם לנהל את הטרנספורמציה של הנתונים בתהליך החילוץ, הטעינה והטרנספורמציה (ELT) של שילוב הנתונים. אחרי שמחלצים נתונים גולמיים ממערכות המקור וטוענים אותם ל-BigQuery, אפשר להשתמש ב-Dataform כדי להפוך אותם לחבילה מאורגנת, שנבדקה ומתועדת של טבלאות. בשפת DML אתם משתמשים בגישה אימפרטיבית, שבה אתם אומרים ל-BigQuery בדיוק איך לשנות את הנתונים. ב-Dataform אתם כותבים הצהרות דקלרטיביות, ואז Dataform קובע את השינוי שצריך לבצע כדי להגיע למצב הזה.
ב-Dataform, אתם יכולים לפתח, לבדוק ולנהל גרסאות של תהליכי עבודה של SQL לשינוי נתונים, מהצהרות על מקורות נתונים ועד לטבלאות פלט, תצוגות או תצוגות חומריות. אפשר לפתח תהליכי עבודה של SQL באמצעות Dataform Core או JavaScript טהור. Dataform core היא שפת-על מבוססת קוד פתוח שמרחיבה את SQL באמצעות SQLX ו-JavaScript. אתם יכולים להשתמש ב-Dataform core כדי לנהל תלות, להגדיר בדיקות אוטומטיות של איכות הנתונים ולתעד תיאורים של טבלאות או עמודות בתוך הקוד.
Dataform שומר את קוד זרימת העבודה של SQL במאגרים ומשתמש ב-Git כדי לעקוב אחרי שינויים בקבצים. סביבות פיתוח ב-Dataform מאפשרות לכם לעבוד על התוכן של המאגר בלי להשפיע על העבודה של משתמשים אחרים שעובדים באותו מאגר. אפשר לקשר מאגרי Dataform לספקי Git של צד שלישי, כולל Azure DevOps Services, Bitbucket, GitHub ו-GitLab.
אפשר להריץ או לתזמן תהליכי עבודה של SQL באמצעות הגדרות של גרסאות Dataform והגדרות של תהליכי עבודה. אפשר גם לתזמן הפעלות באמצעות Managed Service for Apache Airflow, או באמצעות Workflows ו-Cloud Scheduler. במהלך ההרצה, Dataform מריץ שאילתות SQL ב-BigQuery לפי סדר התלויות של האובייקטים בתהליך העבודה של SQL. אחרי ההרצה, אפשר להשתמש בטבלאות ובתצוגות המפורטות שהגדרתם לניתוח ב-BigQuery.
מידע נוסף על יצירת תהליכי עבודה של SQL לטרנספורמציה של נתונים ב-Dataform זמין במאמרים סקירה כללית של Dataform ותכונות של Dataform.
שינוי נתונים באמצעות צינורות נתונים של BigQuery
צינורות נתונים של BigQuery מבוססים על Dataform ומאפשרים ליצור ולנהל טרנספורמציה של נתונים בתהליכי חילוץ, טעינה וטרנספורמציה (ELT) או חילוץ, טרנספורמציה וטעינה (ETL).
אתם יכולים ליצור ולנהל צינורות נתונים של BigQuery באופן ויזואלי ב-BigQuery Studio.
מידע נוסף על יצירת צינורות נתונים של BigQuery
הכנת נתונים ב-BigQuery
כדי להפחית את הטרחה של הכנת הנתונים, BigQuery מאפשר לכם לנקות את הנתונים באמצעות הצעות לטרנספורמציה שנוצרו על ידי Gemini. הכנת נתונים ב-BigQuery כוללת את העזרה הבאה:
- החלת טרנספורמציות וכללים לאיכות הנתונים
- סטנדרטיזציה והעשרה של נתונים
- אוטומציה של מיפוי סכימה
אפשר לאמת את התוצאות בתצוגה מקדימה של הנתונים לפני שמבצעים את השינויים בכל הנתונים.
מידע נוסף זמין במאמר סקירה כללית על הכנת נתונים ב-BigQuery.
המאמרים הבאים
- מידע נוסף על DML זמין במאמר טרנספורמציה של נתונים באמצעות שפת טיפול בנתונים (DML).
- מידע נוסף על Dataform זמין במאמר סקירה כללית על Dataform.