מבוא למקורות נתונים חיצוניים

בדף הזה מפורטת סקירה כללית על שאילתות של נתונים שמאוחסנים מחוץ ל-BigQuery.

מקור נתונים חיצוני הוא מקור נתונים שאפשר להריץ עליו שאילתות ישירות מ-BigQuery, גם אם הנתונים לא מאוחסנים ב-BigQuery. לדוגמה, יכול להיות שיש לכם נתונים במסד נתונים Cloud de Confiance by S3NS אחר, בקבצים ב-Cloud Storage או במוצר ענן אחר לגמרי שאתם רוצים לנתח ב-BigQuery, אבל אתם לא מוכנים להעביר אותם.

תרחישי שימוש במקורות נתונים חיצוניים כוללים את הדוגמאות הבאות:

  • לגבי עומסי עבודה של שליפה, טעינה וטרנספורמציה (ELT), אפשר לטעון ולנקות את הנתונים במעבר אחד ולכתוב את התוצאה הנקייה באחסון של BigQuery באמצעות שאילתת CREATE TABLE ... AS SELECT.
  • צירוף טבלאות BigQuery עם נתונים שמשתנים לעיתים קרובות ממקור נתונים חיצוני. כשמריצים שאילתה ישירות על מקור הנתונים החיצוני, לא צריך לטעון מחדש את הנתונים לאחסון ב-BigQuery בכל פעם שהם משתנים.

טבלאות של מקורות נתונים חיצוניים

טבלאות של מקורות נתונים חיצוניים דומות לטבלאות רגילות ב-BigQuery, בכך שהן מאחסנות את המטא-נתונים והסכימה שלהן באחסון של BigQuery. עם זאת, הנתונים שלהם נמצאים במקור חיצוני.

טבלאות של מקורות נתונים חיצוניים נמצאות בתוך מערך נתונים, ואפשר לנהל אותן באותו אופן שבו מנהלים טבלה רגילה ב-BigQuery. לדוגמה, אפשר לראות את מאפייני הטבלה, להגדיר בקרת גישה וכו'. אפשר להריץ שאילתות על הטבלאות האלה, וברוב המקרים אפשר לצרף אותן לטבלאות אחרות.

יש שלושה סוגים של טבלאות של מקורות נתונים חיצוניים:

  • טבלאות BigLake
  • טבלאות אובייקטים
  • טבלאות חיצוניות

טבלאות BigLake

טבלאות BigLake מאפשרות להריץ שאילתות על נתונים מובְנים במאגרי נתונים חיצוניים באמצעות הקצאת הרשאות גישה. הענקת הרשאות גישה מפרידה בין הגישה לטבלת BigLake לבין הגישה למאגר הנתונים הבסיסי. חיבור חיצוני שמשויך לחשבון שירות משמש לחיבור למאגר הנתונים. חשבון השירות מטפל באחזור הנתונים ממאגר הנתונים, ולכן צריך רק להעניק למשתמשים גישה לטבלת BigLake. כך אפשר לאכוף אבטחה ברמת הטבלה, כולל אבטחה ברמת השורה וברמת העמודה. בטבלאות BigLake שמבוססות על Cloud Storage, אפשר גם להשתמש בהסתרת נתונים דינמית. מידע נוסף על פתרונות ניתוח מרובי עננים באמצעות טבלאות BigLake עם נתונים מ-Amazon S3 או מ-Blob Storage זמין במאמר בנושא BigQuery Omni.

מידע נוסף זמין במאמר מבוא לטבלאות BigLake.

טבלאות אובייקטים

טבלאות אובייקטים מאפשרות לכם לנתח נתונים לא מובְנים ב-Cloud Storage. אפשר לבצע ניתוח באמצעות פונקציות מרוחקות או לבצע הסקה באמצעות BigQuery ML, ואז לצרף את התוצאות של הפעולות האלה לשאר הנתונים המובְנים ב-BigQuery.

בדומה לטבלאות BigLake, טבלאות אובייקטים משתמשות בהענקת הרשאות גישה, שמפרידה בין הגישה לטבלת האובייקטים לבין הגישה לאובייקטים ב-Cloud Storage. חיבור חיצוני שמשויך לחשבון שירות משמש לחיבור ל-Cloud Storage, כך שצריך להעניק למשתמשים גישה רק לטבלת האובייקטים. כך תוכלו לאכוף אבטחה ברמת השורה ולנהל את האובייקטים שהמשתמשים יכולים לגשת אליהם.

מידע נוסף זמין במאמר מבוא לטבלאות אובייקטים.

טבלאות חיצוניות

טבלאות חיצוניות מאפשרות לשלוח שאילתות לנתונים מובְנים במאגרי נתונים חיצוניים. כדי לשלוח שאילתות לטבלה חיצונית, צריכות להיות לכם הרשאות לטבלה החיצונית ולמקור הנתונים החיצוני. לדוגמה, כדי להריץ שאילתה בטבלה חיצונית שמשתמשת במקור נתונים ב-Cloud Storage, צריך לקבל את ההרשאות הבאות:

  • bigquery.tables.getData
  • bigquery.jobs.create
  • storage.buckets.get
  • storage.objects.get

מידע נוסף זמין במאמר מבוא לטבלאות חיצוניות.

שאילתות מאוחדות

שאילתות מאוחדות מאפשרות לשלוח הצהרת שאילתה למסדי נתונים של AlloyDB,‏ Spanner או Cloud SQL ולקבל את התוצאה כטבלה זמנית. שאילתות מאוחדות משתמשות ב-BigQuery Connection API כדי ליצור חיבור ל-AlloyDB, ל-Spanner או ל-Cloud SQL. בשאילתה, משתמשים בפונקציה EXTERNAL_QUERY כדי לשלוח הצהרת שאילתה למסד הנתונים החיצוני, באמצעות ניב ה-SQL של מסד הנתונים הזה. התוצאות מומרות לסוגי נתונים של GoogleSQL.

מידע נוסף זמין במאמר מבוא לשאילתות מאוחדות.

השוואה בין תכונות של מקורות נתונים חיצוניים

בטבלה הבאה מוצגת השוואה בין ההתנהגות של מקורות נתונים חיצוניים:

טבלאות BigLake טבלאות של אובייקטים טבלאות חיצוניות שאילתות מאוחדות
שימוש בהענקת גישה כן, באמצעות חשבון שירות כן, באמצעות חשבון שירות לא כן, דרך חשבון משתמש במסד נתונים (Cloud SQL בלבד)
יכול להתבסס על כמה מזהי URI של מקורות כן כן כן (רק Cloud Storage) לא רלוונטי
מיפוי שורות השורות מייצגות את תוכן הקובץ השורות מייצגות מטא-נתונים של קבצים השורות מייצגות את תוכן הקובץ לא רלוונטי
אפשר לגשת לנתונים באמצעות מחברים בכלים אחרים לעיבוד נתונים כן (רק Cloud Storage) לא כן לא רלוונטי
אפשר לצרף אותן לטבלאות אחרות ב-BigQuery כן (רק Cloud Storage) כן כן כן
אפשר לגשת אליה כטבלה זמנית כן (רק Cloud Storage) לא כן כן
עובד עם Amazon S3 כן לא לא לא
עובד עם Azure Storage כן לא לא לא
עבודה עם Bigtable לא לא כן לא
עבודה עם Spanner לא לא לא כן
עובד עם Cloud SQL לא לא לא כן
עובד עם Google Drive לא לא כן לא
עובד עם Cloud Storage כן כן כן לא

המאמרים הבאים