מבוא לטעינת נתונים
במאמר הזה מוסבר איך אפשר לטעון נתונים ל-BigQuery. שתי הגישות הנפוצות לשילוב נתונים הן חילוץ, טעינה וטרנספורמציה (ELT) או חילוץ, טרנספורמציה וטעינה (ETL) של נתונים.
סקירה כללית של גישות ELT ו-ETL מופיעה במאמר מבוא לטעינה, לטרנספורמציה ולייצוא של נתונים.
שיטות לטעינה או לגישה לנתונים חיצוניים
בדף BigQuery, בתיבת הדו-שיח Add data (הוספת נתונים), אפשר לראות את כל השיטות הזמינות לטעינת נתונים ל-BigQuery או לגישה לנתונים מ-BigQuery. בוחרים אחת מהאפשרויות הבאות בהתאם לתרחיש השימוש ולמקורות הנתונים:
| שיטת הטעינה | תיאור |
|---|---|
| טעינה באצווה | השיטה הזו מתאימה לטעינת כמויות גדולות של נתונים ממגוון מקורות. כדי לטעון נתונים מ-Cloud Storage וממקורות נתונים נתמכים אחרים בשיטת batch או בשיטה מצטברת, מומלץ להשתמש ב-שירות העברת נתונים ל-BigQuery. באמצעות שירות העברת הנתונים ל-BigQuery, אפשר לתזמן משימות טעינה כדי לבצע אוטומציה של צינורות להעברת נתונים ל-BigQuery. אתם יכולים לתזמן העברות נתונים חד-פעמיות או העברות של קבוצות נתונים במרווחי זמן קבועים (לדוגמה, מדי יום או מדי חודש). כדי לוודא שהנתונים ב-BigQuery תמיד עדכניים, אפשר לעקוב אחרי ההעברות ולתעד אותן. רשימה של מקורות נתונים שנתמכים על ידי שירות העברת הנתונים ל-BigQuery זמינה במאמר מקורות נתונים נתמכים. |
| טעינה בסטרימינג | השיטה הזו מאפשרת לטעון נתונים כמעט בזמן אמת ממערכות העברת הודעות. כדי להזרים נתונים ל-BigQuery, אפשר להשתמש במינוי ל-BigQuery ב-Pub/Sub. Pub/Sub יכול לטפל בנפח גבוה של טעינת נתונים ל-BigQuery. הוא תומך בסטרימינג של נתונים בזמן אמת, וטוען את הנתונים כשהם נוצרים. מידע נוסף זמין במאמר בנושא מינויים ל-BigQuery. |
| Change Data Capture (CDC) | השיטה הזו מאפשרת לשכפל נתונים ממסדי נתונים ל-BigQuery כמעט בזמן אמת. Datastream יכול להזרים נתונים ממסדי נתונים לנתוני BigQuery עם שכפול כמעט בזמן אמת. Datastream משתמש ביכולות של CDC כדי לעקוב אחרי שינויים ברמת השורה ממקורות הנתונים ולשכפל אותם. רשימה של מקורות נתונים שנתמכים ב-Datastream זמינה במאמר בנושא מקורות. |
| פדרציה למקורות נתונים חיצוניים | השיטה הזו מאפשרת גישה לנתונים חיצוניים בלי לטעון אותם ל-BigQuery. BigQuery תומך בגישה למקורות נתונים חיצוניים נבחרים דרך Cloud Storage ושאילתות מאוחדות. היתרון של השיטה הזו הוא שלא צריך לטעון את הנתונים לפני שמבצעים בהם שינוי לצורך שימוש בהמשך. כדי לבצע את ההמרה, מריצים הצהרות SELECT על הנתונים החיצוניים. |
אפשר גם להשתמש בשיטות התכנותיות הבאות כדי לטעון את הנתונים:
| שיטת הטעינה | תיאור |
|---|---|
| טעינה באצווה | אתם יכולים לטעון נתונים מ-Cloud Storage או מקובץ מקומי על ידי יצירת משימת טעינה. אם נתוני המקור שלכם משתנים לעיתים רחוקות, או שאתם לא צריכים תוצאות שמתעדכנות באופן רציף, משימות טעינה יכולות להיות דרך זולה יותר ופחות עמוסה במשאבים לטעינת הנתונים שלכם ל-BigQuery. הנתונים שנטענו יכולים להיות בפורמט Avro, CSV, JSON, ORC או Parquet. כדי ליצור את עבודת הטעינה, אפשר להשתמש גם בהצהרת SQL LOAD DATA.מערכות פופולריות בקוד פתוח, כמו Spark ושותפי ETL שונים, תומכות גם בטעינת נתונים באצוות ל-BigQuery. כדי לבצע אופטימיזציה של טעינת קבוצות לטבלאות כדי לא להגיע למגבלת הטעינה היומית, אפשר לעיין במאמר בנושא אופטימיזציה של עבודות טעינה. |
| טעינה בסטרימינג | אם אתם צריכים לתמוך במקורות נתונים מותאמים אישית להזנת נתונים או לבצע עיבוד מקדים של נתונים לפני הזנתם ל-BigQuery עם תפוקה גבוהה, אתם יכולים להשתמש ב-Dataflow. למידע נוסף על טעינה מ-Dataflow ל-BigQuery, אפשר לעיין במאמר כתיבה מ-Dataflow ל-BigQuery. אפשר גם להשתמש ישירות ב-BigQuery Storage Write API. כדי לבצע אופטימיזציה של סטרימינג לטבלאות כדי לא להגיע למגבלת הטעינה היומית, אפשר לעיין במאמר בנושא אופטימיזציה של עבודות טעינה. |
Cloud Data Fusion יכול לעזור לכם בתהליך ה-ETL. BigQuery פועל גם עם שותפים של צד שלישי שמבצעים טרנספורמציה של נתונים וטוענים אותם ל-BigQuery.
ב-BigQuery אפשר ליצור חיבורים חיצוניים כדי לבצע שאילתות על נתונים שמאוחסנים מחוץ ל-BigQuery בשירותים כמו Cloud Storage או Spanner, או במקורות של צד שלישי כמו Amazon Web Services (AWS) או Microsoft Azure. Cloud de Confiance by S3NS החיבורים החיצוניים האלה משתמשים ב-BigQuery Connection API. מידע נוסף זמין במאמר מבוא לחיבורים.
דרכים אחרות להשגת נתונים
אתם יכולים להריץ שאילתות על נתונים בלי לטעון אותם בעצמכם ל-BigQuery. בקטעים הבאים מתוארות כמה חלופות.
בהמשך מפורטות כמה מהחלופות:
הרצת שאילתות על נתונים ציבוריים
מערכי נתונים ציבוריים הם מערכי נתונים שמאוחסנים ב-BigQuery ומשותפים עם הציבור. מידע נוסף זמין במאמר בנושא מערכי נתונים ציבוריים ב-BigQuery.
הרצת שאילתות על נתונים משותפים
כדי להריץ שאילתות על מערך נתונים ב-BigQuery שמישהו שיתף איתכם, אפשר לעיין במאמר מבוא ל-BigQuery sharing (לשעבר Analytics Hub). Sharing היא פלטפורמה להחלפת נתונים שמאפשרת שיתוף נתונים.
הרצת שאילתות עם נתוני יומן
אפשר להריץ שאילתות ביומנים בלי ליצור עבודות טעינה נוספות:
Cloud Logging מאפשר לנתב יומנים ליעד ב-BigQuery.
Log Analytics מאפשר לכם להריץ שאילתות שמנתחות את נתוני היומן.
המאמרים הבאים
- איך מכינים נתונים בעזרת Gemini ב-BigQuery
- מידע נוסף על טרנספורמציה של נתונים באמצעות Dataform
- מידע נוסף על מעקב אחרי משימות טעינה זמין בכלי לבדיקת משימות אדמיניסטרטיביות ובמדדים של BigQuery.