שימוש בספריות Python בקוד פתוח
אתם יכולים לבחור מבין שלוש ספריות Python ב-BigQuery, בהתאם לתרחיש השימוש שלכם.
| תרחיש שימוש | תחזוקה על ידי | תיאור | |
|---|---|---|---|
| BigQuery DataFrames | עיבוד נתונים ופעולות ML מבוססות Python עם עיבוד בצד השרת (לדוגמה, באמצעות משבצות) | ממשקי API של Pandas ו-scikit-learn שהוטמעו באמצעות דחיפה לצד השרת. למידע נוסף, קראו את המאמר מבוא ל-BigQuery DataFrames. | |
| pandas-gbq | עיבוד נתונים מבוסס Python באמצעות העתקת נתונים בצד הלקוח | ספריית קוד פתוח שמתוחזקת על ידי PyData ותורמים מתנדבים | מאפשר להעביר נתונים אל ומ-Python DataFrames בצד הלקוח. מידע נוסף זמין במסמכי התיעוד ובקוד המקור. |
| google-cloud-bigquery | פריסה, ניהול ושאילתות מבוססות SQL ב-BigQuery | ספרייה בקוד פתוח שמתוחזקת על ידי Google | חבילת Python שעוטפת את כל ממשקי BigQuery API. מידע נוסף זמין במסמכי התיעוד ובקוד המקור. |
שימוש ב-pandas-gbq וב-google-cloud-bigquery
ספריית pandas-gbq מספקת ממשק פשוט להרצת שאילתות ולהעלאת מסגרות נתונים של pandas ל-BigQuery. הוא עוטף את ספריית הלקוח של BigQuery, google-cloud-bigquery. שתי הספריות האלה מתמקדות בעזרה בניתוח נתונים באמצעות SQL.
התקנת הספריות
כדי להשתמש בדוגמאות הקוד במדריך הזה, צריך להתקין את חבילת pandas-gbq ואת ספריות הלקוח של BigQuery Python.
מתקינים את החבילות pandas-gbq ו-google-cloud-bigquery.
pip install --upgrade pandas-gbq 'google-cloud-bigquery[bqstorage,pandas]'
הרצת שאילתות
שתי הספריות תומכות בשליחת שאילתות לנתונים שמאוחסנים ב-BigQuery. ההבדלים העיקריים בין הספריות כוללים:
| pandas-gbq | google-cloud-bigquery | |
|---|---|---|
| תחביר SQL שמוגדר כברירת מחדל | GoogleSQL (ניתן להגדרה באמצעות pandas_gbq.context.dialect) |
GoogleSQL |
| הגדרות שאילתה | נשלח כמילון בפורמט של בקשת שאילתה. | משתמשים במחלקה QueryJobConfig, שמכילה מאפיינים לאפשרויות השונות של הגדרת ה-API. |
שאילתות נתונים באמצעות תחביר GoogleSQL
בדוגמה הבאה אפשר לראות איך להריץ שאילתת GoogleSQL עם ציון פרויקט וגם בלי ציון פרויקט. בשתי הספריות, אם לא מציינים פרויקט, הפרויקט ייקבע לפי פרטי הכניסה שמוגדרים כברירת מחדל.
pandas-gbq:
google-cloud-bigquery:
הרצת שאילתות על נתונים באמצעות תחביר SQL מדור קודם
בדוגמה הבאה אפשר לראות איך מריצים שאילתה באמצעות תחביר SQL מדור קודם. במדריך להעברת נתונים ל-GoogleSQL יש הוראות לעדכון השאילתות ל-GoogleSQL.
pandas-gbq:
google-cloud-bigquery:
שימוש ב-BigQuery Storage API להורדת תוצאות גדולות
אתם יכולים להשתמש ב-BigQuery Storage API כדי להוריד תוצאות גדולות במהירות גבוהה פי 15 עד 31.
pandas-gbq:
google-cloud-bigquery:
הרצת שאילתה עם הגדרה
כדי לבצע פעולות מורכבות מסוימות, כמו הפעלת שאילתה עם פרמטרים או ציון טבלת יעד לאחסון תוצאות השאילתה, צריך לשלוח הגדרה עם בקשת BigQuery API. ב-pandas-gbq, צריך לשלוח את ההגדרה כמילון בפורמט של בקשת שאילתה.
ב-google-cloud-bigquery, יש מחלקות הגדרות של משימות, כמו QueryJobConfig, שמכילות את המאפיינים הדרושים להגדרת משימות מורכבות.
בדוגמה הבאה אפשר לראות איך מריצים שאילתה עם פרמטרים בעלי שמות.
pandas-gbq:
google-cloud-bigquery:
טעינת pandas DataFrame לטבלה ב-BigQuery
שתי הספריות תומכות בהעלאת נתונים מ-pandas DataFrame לטבלה חדשה ב-BigQuery. בין ההבדלים העיקריים:
| pandas-gbq | google-cloud-bigquery | |
|---|---|---|
| סוג התמיכה | הפונקציה ממירה את DataFrame לפורמט CSV לפני השליחה ל-API, שלא תומך בערכים מקוננים או בערכי מערך. | הפונקציה ממירה את DataFrame לפורמט Parquet או CSV לפני השליחה ל-API, שתומך בערכים מקוננים ובערכי מערך. בוחרים ב-Parquet לערכי struct ומערך, וב-CSV לערכי תאריך ושעה כדי לקבל גמישות בסריאליזציה. Parquet היא ברירת המחדל. שימו לב שצריך להתקין את pyarrow, מנוע ה-parquet שמשמש לשליחת נתוני ה-DataFrame אל BigQuery API, כדי לטעון את ה-DataFrame לטבלה. |
| טעינת הגדרות | אפשר גם לציין סכימת טבלה. | משתמשים במחלקה LoadJobConfig, שמכילה מאפיינים לאפשרויות השונות של הגדרת ה-API. |
pandas-gbq:
google-cloud-bigquery:
google-cloud-bigquery דורשת את הספרייה pyarrow כדי לבצע סריאליזציה של pandas DataFrame לקובץ Parquet.
מתקינים את חבילת pyarrow:
pip install pyarrow
תכונות שלא נתמכות ב-pandas-gbq
ספריית pandas-gbq מספקת ממשק שימושי לשליחת שאילתות לגבי נתונים ולכתיבת נתונים לטבלאות, אבל היא לא כוללת הרבה מהתכונות של BigQuery API, כולל, בין היתר:
- ניהול מערכי נתונים, כולל יצירת מערכי נתונים חדשים, עדכון מאפיינים של מערכי נתונים ומחיקת מערכי נתונים
- טעינת נתונים לתוך BigQuery מפורמטים אחרים מלבד pandas DataFrames או מ-pandas DataFrames עם עמודות JSON
- ניהול טבלאות, כולל הצגת טבלאות במערך נתונים, העתקת נתוני טבלה ומחיקת טבלאות
- ייצוא נתונים מ-BigQuery ישירות ל-Cloud Storage
פתרון בעיות בחיבורים
מחרוזת שגיאה: Connection pool is full, discarding connection: bigquery.googleapis.com.
Connection pool size: 10
אם משתמשים באובייקט ברירת המחדל של לקוח BigQuery ב-Python, אפשר להשתמש ב-10 שרשורים לכל היותר, כי גודל ברירת המחדל של מאגר השרשורים ב-Python HTTPAdapter הוא 10. כדי להשתמש ביותר מ-10 חיבורים, צריך ליצור אובייקט מותאם אישית requests.adapters.HTTPAdapter
לדוגמה:
client = bigquery.Client() adapter = requests.adapters.HTTPAdapter(pool_connections=128, pool_maxsize=128,max_retries=3) client._http.mount("https://",adapter) client._http._auth_request.session.mount("https://",adapter) query_job = client.query(QUERY)