סקירה כללית על BigQuery
BigQuery היא פלטפורמת נתונים מנוהלת לחלוטין שמוכנה לשימוש ב-AI. היא עוזרת לכם לנהל ולנתח את הנתונים שלכם באמצעות תכונות מובנות כמו למידת מכונה, חיפוש, ניתוח גיאוספציאלי ובינה עסקית. הארכיטקטורה ללא שרת (serverless) של BigQuery מאפשרת לכם להשתמש בשפות כמו SQL ו-Python כדי לענות על השאלות הכי חשובות של הארגון, בלי שתצטרכו לנהל את התשתית.
BigQuery מספק דרך אחידה לעבודה עם נתונים מובנים ולא מובנים, ותומך בפורמטים פתוחים של טבלאות כמו Apache Iceberg, Delta ו-Apache Hudi. הזרמת נתונים ב-BigQuery תומכת בהטמעה ובניתוח רציפים של נתונים, ומנוע הניתוח המבוזר והניתן להרחבה של BigQuery מאפשר לכם להריץ שאילתות על טרה-בייט של נתונים בשניות ועל פטה-בייט של נתונים בדקות.
הארכיטקטורה של BigQuery מורכבת משני חלקים: שכבת אחסון שמטמיעה, מאחסנת ומבצעת אופטימיזציה של נתונים, ושכבת מחשוב שמספקת יכולות ניתוח. שכבות המחשוב והאחסון האלה פועלות ביעילות באופן עצמאי זו מזו, הודות לרשת של Google בקנה מידה של פטה-ביט, שמאפשרת את התקשורת הנדרשת ביניהן.
בדרך כלל, מסדי נתונים מדור קודם צריכים לחלוק משאבים בין פעולות קריאה וכתיבה לבין פעולות ניתוח. זה עלול לגרום לקונפליקטים במשאבים ולהאט את השאילתות בזמן כתיבת נתונים לאחסון או קריאת נתונים מהאחסון. העומס על מאגרי משאבים משותפים יכול לגדול עוד יותר כשנדרשים משאבים למשימות ניהול מסדי נתונים, כמו הקצאה או ביטול של הרשאות. ההפרדה בין שכבות החישוב והאחסון ב-BigQuery מאפשרת לכל שכבה להקצות משאבים באופן דינמי בלי להשפיע על הביצועים או על הזמינות של השכבה השנייה.
העיקרון הזה מאפשר ל-BigQuery לחדש מהר יותר כי אפשר לפרוס שיפורים באחסון ובחישוב באופן עצמאי, בלי השבתה או השפעה שלילית על ביצועי המערכת. בנוסף, חשוב להציע מחסן נתונים (data warehouse) ללא שרתים שמנוהל באופן מלא, שבו צוות ההנדסה של BigQuery מטפל בעדכונים ובתחזוקה. התוצאה היא שלא צריך להקצות משאבים או לשנות את גודלם באופן ידני, כך שתוכלו להתמקד בהעברת ערך במקום במשימות ניהול מסדי נתונים מסורתיות.
ממשקי BigQuery כוללים את ממשק Cloud de Confiance המסוף ואת כלי שורת הפקודה של BigQuery. מפתחים ומדעני נתונים יכולים להשתמש בספריות לקוח עם תכנות מוכר, כולל Python, Java, JavaScript ו-Go, וגם ב-API בארכיטקטורת REST וב-RPC API של BigQuery כדי לשנות ולנהל נתונים. דרייברים של ODBC ו-JDBC מאפשרים אינטראקציה עם אפליקציות קיימות, כולל כלים וכלי עזר של צד שלישי.
אם אתם עובדים כנתוני אנליטיקה, מהנדסי מערכות מידע, מנהלי מחסני נתונים או מדעני נתונים, BigQuery יכול לעזור לכם לטעון, לעבד ולנתח נתונים כדי לקבל החלטות עסקיות חשובות.
איך מתחילים לעבוד עם BigQuery
אפשר להתחיל להתנסות ב-BigQuery תוך דקות.
- Cloud de Confiance מדריך למתחילים לשימוש במסוף: כדאי להכיר את היכולות של BigQuery Studio.
עיון ב-BigQuery
התשתית ללא שרת (serverless) של BigQuery מאפשרת לכם להתמקד בנתונים במקום בניהול משאבים. BigQuery משלב מחסן נתונים בענן עם כלי ניתוח מתקדמים.
אחסון BigQuery
BigQuery מאחסן נתונים בפורמט אחסון עמודתי שעבר אופטימיזציה לשאילתות ניתוחיות. הנתונים ב-BigQuery מוצגים בטבלאות, בשורות ובעמודות, ויש תמיכה מלאה בסמנטיקה של טרנזקציות במסד נתונים (ACID). האחסון ב-BigQuery משוכפל באופן אוטומטי בכמה מיקומים כדי לספק זמינות גבוהה.
- מידע על דפוסים נפוצים לארגון משאבי BigQuery במחסן הנתונים ובשווקי הנתונים.
- מידע על מערכי נתונים, המאגר ברמה העליונה של טבלאות ותצוגות ב-BigQuery.
- טעינת נתונים ל-BigQuery באמצעות:
- הזרמת נתונים באמצעות Storage Write API.
- טעינת נתונים באצווה מקבצים מקומיים או מ-Cloud Storage באמצעות פורמטים שכוללים: Avro, Parquet, ORC, CSV, JSON.
מידע נוסף זמין במאמר סקירה כללית של האחסון ב-BigQuery.
ניתוח נתונים ב-BigQuery
ניתוח תיאורי וניתוח פרסקריפטיבי משמשים בין היתר לבינה עסקית, לניתוח אד-הוק, לניתוח גיאו-מרחבי וללמידת מכונה. אפשר לשלוח שאילתות לנתונים שמאוחסנים ב-BigQuery או להריץ שאילתות על נתונים במקום שבו הם נמצאים באמצעות טבלאות חיצוניות או שאילתות מאוחדות, כולל Cloud Storage.
- שאילתות SQL בתקן ANSI (תמיכה ב-ISO/IEC 9075) כולל תמיכה בצירופים, בשדות מקוננים וחוזרים, בפונקציות ניתוח וצבירה, בשאילתות מרובות הצהרות ובמגוון פונקציות מרחביות עם ניתוח גיאוגרפי – מערכות מידע גיאוגרפיות.
- יוצרים תצוגות כדי לשתף את הניתוח.
- תמיכה בכלי בינה עסקית (BI), כולל כלים של צד שלישי באמצעות מנהלי ההתקנים של Simba ODBC ו-JDBC ל-BigQuery
- BigQuery ML מספק למידת מכונה וחיזוי אנליטי.
- BigQuery Studio מקל עליכם להשלים את תהליכי העבודה של ניתוח הנתונים ולמידת המכונה (ML) ב-BigQuery.
- הרצת שאילתות על נתונים מחוץ ל-BigQuery באמצעות טבלאות חיצוניות.
מידע נוסף זמין במאמר סקירה כללית על ניתוח הנתונים ב-BigQuery.
ניהול BigQuery
BigQuery מספק ניהול מרכזי של נתונים ומשאבי מחשוב, וניהול זהויות וגישה (IAM) עוזר לאבטח את המשאבים האלה באמצעות מודל הגישה שמשמש בכל Cloud de Confiance by S3NS.Cloud de Confiance
- מבוא לאבטחת נתונים ולניהול נתונים עוזר להבין מהו ניהול נתונים, ואילו אמצעי בקרה עשויים להידרש כדי לאבטח משאבי BigQuery.
- משימות הן פעולות ש-BigQuery מריץ בשמכם כדי לטעון, לייצא, לשלוח שאילתות או להעתיק נתונים.
- הזמנות מאפשרות לכם לעבור בין תמחור על פי דרישה לבין תמחור על בסיס קיבולת.
מידע נוסף זמין במאמר מבוא לניהול BigQuery.
משאבים ב-BigQuery
עיון במשאבים של BigQuery:
- בנתוני הגרסה מפורטים יומני שינויים של תכונות, שינויים והוצאות משימוש.
- ב-Stack Overflow יש קהילה פעילה של מפתחים ומנתחים שעובדים עם BigQuery.
- Google BigQuery: The Definitive Guide: Data Warehousing, Analytics, and Machine Learning at Scale מאת Valliappa Lakshmanan ו-Jordan Tigani, מסביר איך BigQuery פועל ומספק הדרכה מקיפה על השימוש בשירות.
ממשקי API, כלים וחומרי עזר
חומרי עזר למפתחים ולמנתחים של BigQuery:
- BigQuery API וספריות לקוח מספקים סקירות כלליות של התכונות של BigQuery והשימוש בהן.
- תחביר של DMLמאפשר לכם לנהל את הנתונים ב-BigQuery ולבצע בהם טרנספורמציה.
- מאמרי עזרה בנושא כלי שורת הפקודה של BigQuery מוסבר על התחביר, הפקודות, הדגלים והארגומנטים של ממשק ה-CLI
bq. - שילוב של ODBC / JDBC חיבור של BigQuery לכלים ולתשתית הקיימים.
תפקידים ומשאבים ב-BigQuery
BigQuery נותן מענה לצרכים של אנשי מקצוע בתחום הנתונים בתפקידים ובתחומי האחריות הבאים.
מנתח/ת נתונים
הנחיות לביצוע משימות שיעזרו לכם אם תצטרכו:
- שליחת שאילתות לנתוני BigQuery באמצעות שאילתות אינטראקטיביות או שאילתות אצווה באמצעות תחביר של שאילתות SQL
- אפשר לעיין בפונקציות, באופרטורים ובביטויים מותנים של SQL כדי לשלוח שאילתות לנתונים
שימוש בכלים לניתוח ולהצגה חזותית של נתוני BigQuery, כולל Google Sheets.
שימוש בניתוח נתונים גיאו-מרחביים כדי לנתח נתונים גיאו-מרחביים ולהציג אותם באמצעות מערכות מידע גיאוגרפיות (GIS) של BigQuery
אופטימיזציה של ביצועי שאילתות באמצעות:
- טבלאות מחולקות למחיצות: אפשר לצמצם טבלאות גדולות על סמך טווחי זמן או טווחי מספרים שלמים.
- תצוגות מהותיות: הגדרת תצוגות שנשמרו במטמון כדי לבצע אופטימיזציה של שאילתות או לספק תוצאות קבועות.
אדמין של נתונים
הנחיות לביצוע משימות שיעזרו לכם אם תצטרכו:
- ניהול עלויות באמצעות מקומות שמורים כדי לאזן בין תמחור על פי דרישה לתמחור מבוסס-קיבולת.
- הסבר על אבטחת מידע ומשילות נתונים כדי לאבטח נתונים לפי מערך נתונים, טבלה, עמודה, שורה, או תצוגה
- גיבוי נתונים באמצעות תמונות מצב של טבלאות כדי לשמור את התוכן של טבלה בנקודת זמן מסוימת.
- אפשר לעיין ב-INFORMATION_SCHEMA של BigQuery כדי להבין את המטא-נתונים של מערכי נתונים, עבודות, בקרת גישה, הזמנות, טבלאות ועוד.
- שימוש בעבודות כדי לבצע פעולות בשמכם ב-BigQuery, כמו טעינה, ייצוא, שליחת שאילתות או העתקה של נתונים.
- מעקב אחרי יומנים ומשאבים כדי להבין את BigQuery ואת עומסי העבודה.
מידע נוסף זמין במאמר מבוא לניהול BigQuery.
מדען/ית נתונים
הנחיות לביצוע משימות שיעזרו לכם להשתמש בלמידת מכונה של BigQuery ML כדי לבצע את הפעולות הבאות:
- הבנת התהליך מקצה לקצה שעובר משתמש הקצה במודלים של למידת מכונה
- ניהול אמצעי בקרת הגישה ל-BigQuery ML
- יצירה ואימון של מודלים של BigQuery ML
כולל:
- תחזיות רגרסיה לינארית
- סיווגים של רגרסיה לוגיסטית בינארית ושל רגרסיה לוגיסטית רב-סיווגית
- K-means clustering לפילוח נתונים
- תחזיות של סדרות זמנים באמצעות מודלים של Arima+
מפתחים של נתונים
הנחיות לביצוע משימות שיעזרו לכם אם תצטרכו:
- טעינת נתונים ל-BigQuery
באמצעות:
- טעינת נתונים באצווה בפורמטים הבאים: Avro, Parquet, ORC, CSV, JSON
- BigQuery Storage Write API
שימוש בספרייה של דוגמת קוד, כולל:
Cloud de Confiance דפדפן לדוגמאות (במסגרת BigQuery)
המאמרים הבאים
- סקירה כללית על אחסון ב-BigQuery זמינה במאמר סקירה כללית על אחסון ב-BigQuery.
- סקירה כללית על שאילתות BigQuery זמינה במאמר סקירה כללית על ניתוח הנתונים ב-BigQuery.
- סקירה כללית של ניהול BigQuery זמינה במאמר מבוא לניהול BigQuery.
- סקירה כללית על האבטחה ב-BigQuery זמינה במאמר סקירה כללית על אבטחת מידע וניהול נתונים.