התקנת BigQuery DataFrames

‫BigQuery DataFrames מספק מסגרת נתונים של Python וממשק API ללמידת מכונה (ML) שמבוסס על מנוע BigQuery. ‫BigQuery DataFrames הוא חבילה בקוד פתוח.

התקנת BigQuery DataFrames

כדי להתקין את הגרסה האחרונה של BigQuery DataFrames, מריצים את הפקודה pip install --upgrade bigframes.

ספריות זמינות

ספריית BigQuery DataFrames כוללת שלוש ספריות:

  • bigframes.pandas מספק pandas API שבעזרתו אפשר לנתח נתונים ב-BigQuery ולבצע בהם מניפולציות. אפשר להעביר הרבה עומסי עבודה מ-pandas ל-bigframes רק על ידי שינוי של כמה יבואים. ממשק ה-API של bigframes.pandas ניתן להרחבה כדי לתמוך בעיבוד של טרה-בייט של נתונים ב-BigQuery, והוא משתמש במנוע השאילתות של BigQuery כדי לבצע חישובים.
  • bigframes.bigquery מספקת הרבה פונקציות SQL של BigQuery שאולי אין להן מקבילה ב-pandas.
  • bigframes.ml מספק API דומה ל-API של scikit-learn ל-ML. היכולות של למידת מכונה ב-BigQuery DataFrames מאפשרות לבצע עיבוד מקדים של נתונים, ואז לאמן מודלים על הנתונים האלה. אפשר גם לשרשר את הפעולות האלה כדי ליצור צינורות להעברת נתונים.

התפקידים הנדרשים

כדי לקבל את ההרשאות שדרושות לביצוע המשימות שמתוארות במסמך הזה, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בפרויקט:

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.

כשמבצעים אימות של משתמשי קצה בסביבה אינטראקטיבית כמו מחברת, Python REPL או שורת הפקודה, BigQuery DataFrames מציג בקשה לאימות, אם צריך. אחרת, במאמר איך מגדירים Application Default Credentials מוסבר איך עושים את זה בסביבות שונות.

הגדרת אפשרויות ההתקנה

אחרי שמתקינים את BigQuery DataFrames, אפשר לציין את האפשרויות הבאות.

מיקום ופרויקט

צריך לציין את המיקום ואת הפרויקט שבהם רוצים להשתמש ב-BigQuery DataFrames.

אפשר להגדיר את המיקום והפרויקט במחברת באופן הבא:

import bigframes.pandas as bpd

PROJECT_ID = "bigframes-dev"  # @param {type:"string"}
REGION = "US"  # @param {type:"string"}

# Set BigQuery DataFrames options
# Note: The project option is not required in all environments.
# On BigQuery Studio, the project ID is automatically detected.
bpd.options.bigquery.project = PROJECT_ID

# Note: The location option is not required.
# It defaults to the location of the first table or query
# passed to read_gbq(). For APIs where a location can't be
# auto-detected, the location defaults to the "US" location.
bpd.options.bigquery.location = REGION

המיקום של עיבוד הנתונים

ספריית BigQuery DataFrames מיועדת לשימוש בקנה מידה גדול, והיא עושה זאת על ידי שמירת הנתונים והעיבוד בשירות BigQuery. עם זאת, אפשר להעביר נתונים לזיכרון של מכונת הלקוח על ידי קריאה ל-.to_pandas() באובייקט DataFrame או Series. אם תבחרו לעשות זאת, יחולו מגבלות הזיכרון של האפליקציה במחשב הלקוח.

המאמרים הבאים