מבוא למקורות נתונים חיצוניים
בדף הזה מפורטת סקירה כללית על שאילתות של נתונים שמאוחסנים מחוץ ל-BigQuery.
מקור נתונים חיצוני הוא מקור נתונים שאפשר להריץ עליו שאילתות ישירות מ-BigQuery, גם אם הנתונים לא מאוחסנים באחסון של BigQuery. לדוגמה, יכול להיות שיש לכם נתונים במסד נתונים אחר Cloud de Confiance by S3NS , בקבצים ב-Cloud Storage או במוצר ענן אחר לגמרי שאתם רוצים לנתח ב-BigQuery, אבל אתם לא מוכנים להעביר אותם.
תרחישי שימוש במקורות נתונים חיצוניים כוללים את הדוגמאות הבאות:
- לגבי עומסי עבודה של extract-load-transform (ELT), טעינה וניקוי של הנתונים במעבר אחד וכתיבת התוצאה המנוקה באחסון של BigQuery, באמצעות שאילתת
CREATE TABLE ... AS SELECT. - צירוף טבלאות BigQuery עם נתונים שמשתנים לעיתים קרובות ממקור נתונים חיצוני. כשמריצים שאילתה ישירות על מקור הנתונים החיצוני, לא צריך לטעון מחדש את הנתונים באחסון של BigQuery בכל פעם שהם משתנים.
ב-BigQuery יש שני מנגנונים שונים להרצת שאילתות על נתונים חיצוניים: טבלאות חיצוניות ושאילתות מאוחדות.
טבלאות חיצוניות
טבלאות חיצוניות דומות לטבלאות רגילות ב-BigQuery, בכך שהן מאחסנות את המטא-נתונים והסכימה שלהן באחסון של BigQuery. עם זאת, הנתונים שלהם נמצאים במקור חיצוני.
טבלאות חיצוניות נכללות במערך נתונים, ואפשר לנהל אותן באותו אופן שבו מנהלים טבלה רגילה ב-BigQuery. לדוגמה, אפשר לראות את מאפייני הטבלה, להגדיר אמצעי בקרת גישה וכו'. אפשר להריץ שאילתות על הטבלאות האלה, וברוב המקרים אפשר לצרף אותן לטבלאות אחרות.
יש ארבעה סוגים של טבלאות חיצוניות:
- טבלאות BigLake
- טבלאות ב-BigQuery Omni
- טבלאות אובייקטים
- טבלאות חיצוניות שאינן BigLake
טבלאות BigLake
טבלאות BigLake מאפשרות להריץ שאילתות על נתונים מובְנים במאגרי נתונים חיצוניים באמצעות הקצאת הרשאות גישה. הענקת הרשאת גישה מפרידה בין הגישה לטבלת BigLake לבין הגישה למאגר הנתונים הבסיסי. חיבור חיצוני שמשויך לחשבון שירות משמש לחיבור למאגר הנתונים. חשבון השירות מטפל באחזור נתונים ממאגר הנתונים, ולכן צריך רק להעניק למשתמשים גישה לטבלת BigLake. כך אפשר לאכוף אבטחה ברמת הטבלה, כולל אבטחה ברמת השורה וברמת העמודה. בטבלאות BigLake שמבוססות על Cloud Storage, אפשר גם להשתמש באנונימיזציה דינמית של נתונים. מידע נוסף על פתרונות ניתוח מרובי עננים באמצעות טבלאות BigLake עם נתונים מ-Amazon S3 או מ-Blob Storage זמין במאמר בנושא BigQuery Omni.
מידע נוסף זמין במאמר מבוא לטבלאות BigLake.
טבלאות אובייקטים
טבלאות אובייקטים מאפשרות לכם לנתח נתונים לא מובנים ב-Cloud Storage. אפשר לבצע ניתוח באמצעות פונקציות מרוחקות או לבצע היקש באמצעות BigQuery ML, ואז לצרף את התוצאות של הפעולות האלה לשאר הנתונים המובנים ב-BigQuery.
בדומה לטבלאות BigLake, טבלאות אובייקטים משתמשות בהענקת הרשאות גישה, שמפרידה בין הגישה לטבלת האובייקטים לבין הגישה לאובייקטים ב-Cloud Storage. חיבור חיצוני שמשויך לחשבון שירות משמש לחיבור ל-Cloud Storage, כך שצריך להעניק למשתמשים גישה רק לטבלת האובייקטים. כך תוכלו לאכוף אבטחה ברמת השורה ולנהל את האובייקטים שהמשתמשים יכולים לגשת אליהם.
מידע נוסף זמין במאמר מבוא לטבלאות אובייקטים.
טבלאות חיצוניות שאינן BigLake
טבלאות חיצוניות שאינן BigLake מאפשרות לשלוח שאילתות לנתונים מובנים במאגרי נתונים חיצוניים. כדי לשלוח שאילתות לטבלה חיצונית שאינה BigLake, צריך הרשאות לטבלה החיצונית ולמקור הנתונים החיצוני. לדוגמה, כדי להריץ שאילתה בטבלה חיצונית שאינה BigLake ומשתמשת במקור נתונים ב-Cloud Storage, צריך את ההרשאות הבאות:
bigquery.tables.getDatabigquery.jobs.createstorage.buckets.getstorage.objects.get
מידע נוסף זמין במאמר מבוא לטבלאות חיצוניות.
שאילתות מאוחדות
שאילתות מאוחדות מאפשרות לשלוח הצהרת שאילתה למסדי נתונים של AlloyDB, Spanner או Cloud SQL ולקבל את התוצאה כטבלה זמנית. שאילתות מאוחדות משתמשות ב-BigQuery Connection API כדי ליצור חיבור ל-AlloyDB, ל-Spanner או ל-Cloud SQL.
בשאילתה, משתמשים בפונקציה EXTERNAL_QUERY כדי לשלוח הצהרת שאילתה למסד הנתונים החיצוני, באמצעות דיאלקט ה-SQL של מסד הנתונים הזה.
התוצאות מומרות לסוגי נתונים של GoogleSQL.
מידע נוסף זמין במאמר מבוא לשאילתות מאוחדות.
השוואה בין תכונות של מקורות נתונים חיצוניים
בטבלה הבאה מוצגת השוואה בין ההתנהגות של מקורות נתונים חיצוניים:
| טבלאות BigLake | טבלאות של אובייקטים | טבלאות חיצוניות שאינן BigLake | שאילתות מאוחדות | |
|---|---|---|---|---|
| שימוש בהענקת גישה | כן, באמצעות חשבון שירות | כן, באמצעות חשבון שירות | לא | כן, דרך חשבון משתמש במסד נתונים (Cloud SQL בלבד) |
| יכול להתבסס על כמה מזהי URI של מקורות | כן | כן | כן (רק ב-Cloud Storage) | לא רלוונטי |
| מיפוי שורות | השורות מייצגות את תוכן הקובץ | השורות מייצגות מטא-נתונים של קבצים | השורות מייצגות את תוכן הקובץ | לא רלוונטי |
| אפשר לגשת לנתונים באמצעות מחברים (connectors) דרך כלים אחרים לעיבוד נתונים | כן (רק ב-Cloud Storage) | לא | כן | לא רלוונטי |
| אפשר לצרף אותן לטבלאות אחרות ב-BigQuery | כן (רק ב-Cloud Storage) | כן | כן | כן |
| אפשר לגשת אליה כטבלה זמנית | כן (רק ב-Cloud Storage) | לא | כן | כן |
| תואם ל-Amazon S3 | כן | לא | לא | לא |
| עובד עם Azure Storage | כן | לא | לא | לא |
| עבודה עם Bigtable | לא | לא | כן | לא |
| עבודה עם Spanner | לא | לא | לא | כן |
| פועל עם Cloud SQL | לא | לא | לא | כן |
| עובד עם Google Drive | לא | לא | כן | לא |
| עובד עם Cloud Storage | כן | כן | כן | לא |