סקירה כללית על ניתוח הנתונים ב-BigQuery
במאמר הזה מוסבר איך BigQuery מעבד שאילתות, ומוצגות כמה תכונות שימושיות להבנה ולניתוח של הנתונים.
BigQuery מותאם להרצת שאילתות ניתוח על מערכי נתונים גדולים, כולל טרה-בייט של נתונים בשניות ופטה-בייט בדקות. הבנה של היכולות של הכלי ושל אופן העיבוד של השאילתות יכולה לעזור לכם למקסם את ההשקעות שלכם בניתוח נתונים.
תהליכי עבודה אנליטיים
BigQuery תומך בכמה תהליכי עבודה לניתוח נתונים:
ניתוח אד הוק. BigQuery משתמש ב-GoogleSQL, הדיאלקט של SQL ב-BigQuery, כדי לתמוך בניתוח אד-הוק. אפשר להריץ שאילתות במסוף Cloud de Confiance או באמצעות כלים של צד שלישי שמשולבים ב-BigQuery.
ניתוח נתונים גיאו-מרחביים. ב-BigQuery נעשה שימוש בסוגי נתונים גיאוגרפיים ובפונקציות גיאוגרפיות של GoogleSQL כדי לאפשר לכם לנתח נתונים גיאו-מרחביים ולהציג אותם באופן חזותי. מידע על סוגי הנתונים והפונקציות האלה זמין במאמר מבוא לניתוח נתונים גיאוספציאליים.
חיפוש נתונים אתם יכולים ליצור אינדקס של הנתונים כדי לבצע חיפושים גמישים ומותאמים בטקסט לא מובנה או בנתוני JSON חצי מובנים.
חיפוש Cloud de Confiance משאבים. שימוש בחיפוש בשפה טבעית (גרסת Preview) כדי לגלות משאבים מתוך BigQuery. Cloud de Confiance
למידת מכונה. BigQuery ML משתמש בשאילתות GoogleSQL כדי לאפשר לכם ליצור ולהפעיל מודלים של למידת מכונה (ML) ב-BigQuery.
בינה עסקית. BigQuery BI Engine הוא שירות ניתוח מהיר בזיכרון שמאפשר לכם ליצור לוחות בקרה ודוחות עשירים ואינטראקטיביים בלי לפגוע בביצועים, בהתאמה, באבטחה או ברעננות הנתונים.
כלים מבוססי-AI. אתם יכולים להשתמש ב-Gemini ב-BigQuery כדי להכין את הנתונים ולחקור אותם, ליצור שאילתות SQL וקוד Python ולהציג את התוצאות בצורה ויזואלית.
ניתוח נתונים
בעזרת BigQuery תוכלו להבין את הנתונים לפני שתתחילו לכתוב שאילתות SQL. אם אתם רוצים למצוא נתונים, לא מכירים את הנתונים שלכם, לא יודעים אילו שאלות לשאול או שאתם צריכים עזרה בכתיבת SQL, אתם יכולים להשתמש בתכונות הבאות:
Dataplex Universal Catalog איתורCloud de Confiance משאבים מתוך BigQuery, כמו מערכי נתונים וטבלאות.
כלי המחקר של הטבלה אפשר לחקור באופן ויזואלי את הטווח והתדירות של הערכים בטבלה וליצור שאילתות באופן אינטראקטיבי.
תובנות מנתונים. ליצור שאלות בשפה טבעית לגבי הנתונים, יחד עם שאילתות ה-SQL שיענו על השאלות האלה.
סריקת פרופיל נתונים. תוכלו לראות מאפיינים סטטיסטיים של הנתונים, כולל ערכים ממוצעים, ייחודיים, מקסימליים ומינימליים.
קנבס נתונים. אפשר לשלוח שאילתות לנתונים בשפה טבעית, להציג את התוצאות בתרשימים ולשאול שאלות המשך.
שאילתות
הדרך העיקרית לנתח נתונים ב-BigQuery היא להריץ שאילתת SQL. GoogleSQL dialect תומך ב-SQL:2011 וכולל הרחבות שתומכות בניתוח גיאו-מרחבי וב-ML.
מקורות נתונים
ב-BigQuery אפשר להריץ שאילתות על סוגי מקורות הנתונים הבאים:
נתונים שמאוחסנים ב-BigQuery. אפשר לטעון נתונים ל-BigQuery, לשנות נתונים קיימים באמצעות הצהרות של שפת טיפול בנתונים (DML) או לכתוב תוצאות של שאילתה בטבלה. אתם יכולים לשאול שאילתות לגבי נתונים היסטוריים מנקודת זמן מסוימת בחלון הזמן שלכם.
אפשר לשלוח שאילתות לנתונים שמאוחסנים במיקומים באזור יחיד או במספר אזורים. שאילתה שנותנת גישה לנתונים שמאוחסנים ביותר ממיקום אחד יכולה להיחשב כשאילתה עם אחזור נתונים גלובלי (גרסת Preview). שאילתות שמפנות לנתונים בכמה מיקומים תמיד נחשבות לשאילתות גלובליות, גם אם אזור אחד הוא מיקום באזור יחיד והאזור השני הוא מיקום במספר אזורים שמכיל את המיקום באזור יחיד.
נתונים חיצוניים. אתם יכולים להריץ שאילתות על מגוון מקורות נתונים חיצוניים, כמו Cloud Storage, או על שירותי מסדי נתונים כמו Spanner או Cloud SQL. מידע על הגדרת קישורים למקורות חיצוניים זמין במאמר מבוא למקורות נתונים חיצוניים.
נתונים מרובי עננים. אפשר לשלוח שאילתות לנתונים שמאוחסנים בעננים ציבוריים אחרים, כמו AWS או Azure. מידע על הגדרת חיבורים ל-Amazon Simple Storage Service (Amazon S3) או ל-Azure Blob Storage זמין במאמר מבוא ל-BigQuery Omni.
מערכי נתונים ציבוריים. אתם יכולים לנתח כל אחד ממערכי הנתונים שזמינים בזירת המסחר של מערכי הנתונים הציבוריים.
BigQuery sharing (לשעבר Analytics Hub). אתם יכולים לפרסם מערכי נתונים של BigQuery ונושאים של Pub/Sub ולהירשם אליהם כדי לשתף נתונים בין גבולות ארגוניים. מידע נוסף זמין במאמר מבוא ל-BigQuery sharing.
סוגי שאילתות
אפשר להריץ שאילתות על נתוני BigQuery באמצעות אחד מסוגי משימות השאילתה הבאים:
משימות אינטראקטיביות של שאילתות. כברירת מחדל, BigQuery מריץ שאילתות כעבודות שאילתה אינטראקטיביות, שמיועדות להתחיל לפעול במהירות האפשרית.
משימות של שאילתות באצווה. לשאילתות אצווה יש עדיפות נמוכה יותר מאשר לשאילתות אינטראקטיביות. כשפרויקט או הזמנה משתמשים בכל משאבי ה-Compute הזמינים, סביר יותר שהשאילתות של אצווה יוכנסו לתור וישארו בו. אחרי שמתחילים להריץ שאילתה באצווה, היא פועלת כמו שאילתה אינטראקטיבית. מידע נוסף זמין במאמר בנושא תורים של שאילתות.
משימות של שאילתות מתמשכות. בעזרת המשימות האלה, השאילתה פועלת באופן רציף, ומאפשרת לכם לנתח נתונים נכנסים ב-BigQuery בזמן אמת, ואז לכתוב את התוצאות בטבלה ב-BigQuery או לייצא את התוצאות ל-Bigtable או ל-Pub/Sub. אתם יכולים להשתמש ביכולת הזו כדי לבצע משימות שרגישות לזמן, כמו יצירת תובנות ופעולה מיידית על סמך התובנות האלה, הפעלת מסקנות של למידת מכונה (ML) בזמן אמת ויצירת צינורות נתונים מבוססי-אירועים.
אפשר להריץ משימות של שאילתות בדרכים הבאות:
- לכתוב ולהריץ שאילתה במסוףCloud de Confiance .
- מריצים את הפקודה
bq queryבכלי שורת הפקודה של BigQuery. - קוראים באופן פרוגרמטי ל-method
jobs.queryאו ל-methodjobs.insertב-REST API של BigQuery. - שימוש בספריות הלקוח של BigQuery.
שאילתות עם כמה הצהרות
אפשר להריץ כמה הצהרות ברצף, עם מצב משותף, באמצעות שאילתות עם כמה הצהרות. שאילתות עם כמה הצהרות משמשות לעיתים קרובות בפרוצדורות מאוחסנות ותומכות בהצהרות של שפה פרוצדורלית, שמאפשרות להגדיר משתנים וליישם זרימת בקרה.
שאילתות שנשמרו ושיתפו
ב-BigQuery אפשר לשמור שאילתות ולשתף שאילתות עם משתמשים אחרים.
כששומרים שאילתה, אפשר להגדיר אותה כפרטית (רק אתם יכולים לראות אותה), כמשותפת ברמת הפרויקט (רק גורמים ספציפיים יכולים לראות אותה) או כציבורית (כל אחד יכול לראות אותה). מידע נוסף על עבודה עם שאילתות שמורות
איך BigQuery מעבד שאילתות
כמה תהליכים מתרחשים כשמריצים שאילתה ב-BigQuery:
עץ הביצוע. כשמריצים שאילתה, BigQuery יוצר עץ ביצוע שמחלק את השאילתה לשלבים. השלבים האלה יכולים לפעול במקביל.
הפעלה אקראית של רמה השלבים מתקשרים ביניהם באמצעות שכבת ערבול מהירה ומבוזרת שמאחסנת נתונים זמניים שנוצרו על ידי העובדים של שלב מסוים. כשזה אפשרי, רמת ה-shuffle משתמשת בטכנולוגיות כמו רשת פטה-ביט ו-RAM כדי להעביר נתונים במהירות לצמתי עובדים.
תוכנית שאילתות. כש-BigQuery מקבל את כל המידע שנדרש להרצת שאילתה, הוא יוצר תוכנית שאילתות. אתם יכולים לראות את תוכנית השאילתה במסוף Cloud de Confiance ולהשתמש בה כדי לפתור בעיות או לשפר את ביצועי השאילתה.
תרשים של ביצוע השאילתה. אתם יכולים לעיין במידע על תוכנית השאילתות בפורמט גרפי לכל שאילתה, בין אם היא פועלת או שהסתיימה, ולראות תובנות לגבי הביצועים שיעזרו לכם לבצע אופטימיזציה של השאילתות.
מעקב אחר שאילתות ותכנון דינמי. בנוסף לעובדים שמבצעים את העבודה של תוכנית השאילתה עצמה, עובדים נוספים עוקבים אחרי ההתקדמות הכוללת של העבודה במערכת ומכוונים אותה. במהלך התקדמות השאילתה, יכול להיות ש-BigQuery ישנה באופן דינמי את תוכנית השאילתה כדי להתאים לתוצאות של השלבים השונים.
תוצאות השאילתה. כשהשאילתה מסתיימת, BigQuery כותב את התוצאות לאחסון קבוע ומחזיר אותן למשתמש. העיצוב הזה מאפשר ל-BigQuery להציג תוצאות ששמורות במטמון בפעם הבאה שהשאילתה הזו תופעל.
ביצועים ושאילתות מקבילות
הביצועים של שאילתות שמופעלות שוב ושוב על אותם נתונים יכולים להשתנות בגלל האופי המשותף של סביבת BigQuery, בגלל השימוש בתוצאות שאילתות שנשמרו במטמון או בגלל ש-BigQuery משנה באופן דינמי את תוכנית השאילתות בזמן שהשאילתה פועלת. במערכת עמוסה טיפוסית שבה הרבה שאילתות מורצות בו-זמנית, BigQuery משתמש בכמה תהליכים כדי לצמצם את השונות בביצועי השאילתות:
מערכת BigQuery מריצה הרבה שאילתות במקביל, ויכולה להוסיף שאילתות לתור כדי להריץ אותן כשהמשאבים יהיו זמינים.
כשהשאילתות מתחילות ומסתיימות, BigQuery מחלק מחדש את המשאבים באופן הוגן בין השאילתות החדשות לבין השאילתות שפועלות. התהליך הזה מבטיח שביצועי השאילתות לא יהיו תלויים בסדר שבו השאילתות נשלחות, אלא במספר השאילתות שמופעלות בזמן נתון.
אופטימיזציה של שאילתות
כשמריצים שאילתה, אפשר לראות את תוכנית השאילתה במסוף Cloud de Confiance . אפשר גם לבקש פרטי הרצה באמצעות תצוגות INFORMATION_SCHEMA.JOBS* או ה-method jobs.get ב-API בארכיטקטורת REST.
תוכנית השאילתות כוללת פרטים על השלבים של השאילתה. הפרטים האלה יכולים לעזור לכם לזהות דרכים לשיפור הביצועים של השאילתות. לדוגמה, אם אתם מבחינים בשלב שכותב הרבה יותר פלט משלבים אחרים, יכול להיות שאתם צריכים להחיל מסנן מוקדם יותר בשאילתה.
למידע נוסף על תוכנית השאילתה ואופטימיזציה של שאילתות, אפשר לעיין במקורות המידע הבאים:
- מידע נוסף על תוכנית השאילתות ודוגמאות לאופן שבו המידע על התוכנית יכול לעזור לכם לשפר את ביצועי השאילתות זמין במאמר תוכנית שאילתות וציר זמן.
- מידע נוסף על אופטימיזציה של שאילתות באופן כללי זמין במאמר מבוא לאופטימיזציה של ביצועי שאילתות.
מעקב אחרי שאילתות
מעקב ורישום ביומן הם חיוניים להפעלת אפליקציות אמינות בענן. עומסי עבודה של BigQuery לא יוצאים מן הכלל, במיוחד אם עומס העבודה כולל נפחים גדולים או שהוא קריטי לפעילות. BigQuery מספק מדדים, יומנים ותצוגות שונות של מטא-נתונים כדי לעזור לכם לעקוב אחרי השימוש ב-BigQuery.
מידע נוסף זמין במקורות המידע הבאים:
- מידע על אפשרויות המעקב ב-BigQuery זמין במאמר מבוא למעקב ב-BigQuery.
- מידע על יומני ביקורת ועל ניתוח התנהגות של שאילתות זמין במאמר בנושא יומני ביקורת ב-BigQuery.
תמחור של שאילתות
ב-BigQuery יש שני מודלים לתמחור של ניתוח נתונים:
- תמחור על פי דרישה. החיוב מתבצע על הנתונים שנסרקו על ידי השאילתות. לכל פרויקט יש קיבולת קבועה לעיבוד שאילתות, והעלות מבוססת על מספר הבייטים שעברו עיבוד.
- תמחור מבוסס-קיבולת. אתם רוכשים קיבולת ייעודית לעיבוד שאילתות.
למידע על שני מודלי התמחור ולמידע נוסף על הזמנת קיבולת במודל תמחור לפי קיבולת, אפשר לעיין במאמר מבוא להזמנות.
מכסות ואמצעי בקרה על עלויות של שאילתות
ב-BigQuery יש מכסות ברמת הפרויקט להרצת שאילתות. מידע על מכסות של שאילתות זמין במאמר מכסות ומגבלות.
כדי לשלוט בעלויות של שאילתות, BigQuery מספק כמה אפשרויות, כולל מכסות בהתאמה אישית והתראות חיוב. מידע נוסף זמין במאמר בנושא יצירת אמצעים בהתאמה אישית לבקרת עלויות.
תכונות של ניתוח נתונים
BigQuery תומך בניתוח תיאורי וחיזוי אנליטי, ועוזר לכם לחקור את הנתונים באמצעות כלים מבוססי-AI, SQL, למידת מכונה, מחברות (notebooks) ושילובים אחרים של צד שלישי.
BigQuery Studio
BigQuery Studio עוזר לכם לגלות ולנתח נתונים ב-BigQuery ולהסיק מהם מסקנות באמצעות התכונות הבאות:
- עורך SQL חזק שמספק השלמה ויצירה של קוד, אימות שאילתות והערכה של בייטים שעברו עיבוד.
- מחברות Python מוטמעות שנבנו באמצעות Colab Enterprise. מחברות מספקות סביבות הרצה לפיתוח Python בלחיצה אחת, ותמיכה מובנית ב-BigQuery DataFrames.
- עורך PySpark שמאפשר ליצור תהליכים מאוחסנים של Python ל-Apache Spark.
- ניהול נכסים והיסטוריית גרסאות של נכסי קוד כמו מחברות ושאילתות שמורות, שמבוססים על Dataform.
- פיתוח קוד בעזרת AI בעורך SQL ובמחברות, שמבוסס על AI גנרטיבי של Gemini (גרסת Preview).
- תכונות של Dataplex Universal Catalog לגילוי נתונים, לפרופיל נתונים ולסריקות של איכות נתונים.
- אפשרות לצפייה בהיסטוריית העבודות על בסיס משתמש או על בסיס פרויקט.
- היכולת לנתח תוצאות של שאילתות שמורות על ידי קישור לכלים אחרים כמו Looker ו-Google Sheets, ולייצא תוצאות של שאילתות שמורות לשימוש באפליקציות אחרות.
BigQuery ML
BigQuery ML מאפשר לכם להשתמש ב-SQL ב-BigQuery כדי לבצע למידת מכונה (ML) וחיזוי אנליטי. מידע נוסף זמין במאמר מבוא ל-BigQuery ML.
הסוכן לניתוח נתונים בשיחה מאפשר לכם לשוחח עם הנתונים שלכם בשפה יומיומית. הסוכן הזה מורכב ממקור נתונים אחד או יותר ומקבוצה של הוראות ספציפיות לתרחיש שימוש לעיבוד הנתונים האלה. ניתוח שיחות תומך בשימוש בחלק מהפונקציות של BigQuery ML.
שילוב של כלי Analytics
בנוסף להרצת שאילתות ב-BigQuery, אתם יכולים לנתח את הנתונים באמצעות כלי ניתוח ובינה עסקית שמשתלבים עם BigQuery, כמו:
Looker. Looker היא פלטפורמה ארגונית לבינה עסקית (BI), לאפליקציות נתונים ולניתוח נתונים מוטמעים. פלטפורמת Looker פועלת עם הרבה מאגרי נתונים, כולל BigQuery. מידע על חיבור Looker ל-BigQuery זמין במאמר שימוש ב-Looker.
Looker Studio. אחרי שמריצים שאילתה, אפשר להפעיל את Looker Studio ישירות מ-BigQuery במסוףCloud de Confiance . לאחר מכן, ב-Looker Studio תוכלו ליצור תצוגות חזותיות ולעיין בנתונים שמוחזרים מהשאילתה. מידע על Looker Studio זמין בסקירה הכללית של Looker Studio.
גיליונות מקושרים. אפשר גם להפעיל את התכונה 'גיליונות מקושרים' ישירות מ-BigQuery ב-Console. 'גיליונות מקושרים' מריצים שאילתות ב-BigQuery בשמכם בעת ההפעלה הידנית, או לפי לוח זמנים מוגדר. התוצאות של השאילתות האלה נשמרות בגיליון האלקטרוני לצורך ניתוח ושיתוף. מידע על גיליונות מקושרים זמין במאמר שימוש בגיליונות מקושרים.
Tableau. אפשר להתחבר למערך נתונים מ-Tableau. אפשר להשתמש ב-BigQuery כדי ליצור תרשימים, מרכזי בקרה והמחשות ויזואליות אחרות של נתונים.
שילוב של כלי צד שלישי
יש כמה כלי ניתוח של צד שלישי שפועלים עם BigQuery. לדוגמה, אפשר לקשר את Tableau לנתוני BigQuery ולהשתמש בכלי ההדמיה שלו כדי לנתח את הנתונים ולשתף את הניתוח. מידע נוסף על שיקולים לשימוש בכלים של צד שלישי זמין במאמר בנושא שילוב של כלים של צד שלישי.
מנהלי התקנים של ODBC ו-JDBC זמינים ואפשר להשתמש בהם כדי לשלב את האפליקציה עם BigQuery. מטרת הדרייברים האלה היא לעזור למשתמשים לנצל את היכולות של BigQuery באמצעות כלים ותשתית קיימים. מידע על הגרסה האחרונה ועל בעיות מוכרות זמין במאמר מנהלי התקנים של ODBC ו-JDBC ל-BigQuery.
ספריות pandas כמו pandas-gbq מאפשרות לכם ליצור אינטראקציה עם נתונים של BigQuery במסמכי notebook של Jupyter. מידע על הספרייה הזו ועל ההבדלים בינה לבין ספריית הלקוח של BigQuery Python זמין במאמר השוואה ל-pandas-gbq.
אפשר גם להשתמש ב-BigQuery עם מחברות אחרות ועם כלי ניתוח. מידע נוסף זמין במאמר בנושא כלים פרוגרמטיים לניתוח.
רשימה מלאה של שותפים של BigQuery בתחום האנליטיקה ובתחומים טכנולוגיים נוספים זמינה בדף המוצר של BigQuery בקטע שותפים.
המאמרים הבאים
- למבוא ולסקירה כללית של משפטי SQL נתמכים, אפשר לעיין במאמר מבוא ל-SQL ב-BigQuery.
- מידע על תחביר GoogleSQL שמשמש לשאילתות נתונים ב-BigQuery זמין במאמר תחביר שאילתות ב-GoogleSQL.
- איך מריצים שאילתה ב-BigQuery
- מידע נוסף על אופטימיזציה של ביצועי שאילתות
- מידע נוסף על תחילת העבודה עם מחברות
- איך מתזמנים שאילתה חוזרת