מבוא ל-BigQuery DataFrames

‫BigQuery DataFrames הוא אוסף של ספריות Python בקוד פתוח, שמאפשרות לכם לנצל את היתרונות של עיבוד נתונים ב-BigQuery באמצעות ממשקי API מוכרים של Python. ‫BigQuery DataFrames מספק מסגרת נתונים (DataFrame) של Python שמבוססת על מנוע BigQuery, והיא מטמיעה את ממשקי ה-API של pandas ו-scikit-learn על ידי העברת העיבוד ל-BigQuery באמצעות המרה ל-SQL. כך תוכלו להשתמש ב-BigQuery כדי לחקור ולעבד טרה-בייט של נתונים, וגם לאמן מודלים של למידת מכונה (ML), והכול באמצעות ממשקי API של Python.

אם אתם מכירים את pandas, אתם יכולים להשתמש ב-BigQuery DataFrames כדי לעבוד עם נתוני BigQuery עם שינויים מינימליים בקוד. לדוגמה, אתם יכולים להשתמש בשיטות מוכרות של pandas כדי לנתח נתונים מטבלה ב-BigQuery:

import bigframes.pandas as bpd

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

היתרונות של BigQuery DataFrames

הספרייה BigQuery DataFrames מבצעת את הפעולות הבאות:

  • מציע יותר מ-750 ממשקי API של pandas ו-scikit-learn שהוטמעו באמצעות המרות SQL שקופות ל-BigQuery ול-BigQuery ML APIs.
  • דוחה את ההרצה של שאילתות כדי לשפר את הביצועים.
  • הרחבת טרנספורמציות של נתונים באמצעות פונקציות Python שהוגדרו על ידי המשתמש, כדי לאפשר לכם לעבד נתונים ב- Cloud de Confiance by S3NS. הפונקציות האלה נפרסות אוטומטית כפונקציות מרוחקות של BigQuery.
  • השילוב עם Gemini Enterprise Agent Platform מאפשר לכם להשתמש במודלים של Gemini כדי ליצור טקסט.

רישוי

חבילת BigQuery DataFrames מופצת עם רישיון Apache-2.0.

חבילת BigQuery DataFrames מכילה גם קוד שמקורו בחבילות הבאות של צד שלישי:

פרטים נוספים זמינים בספרייה third_party/bigframes_vendored במאגר BigQuery DataFrames GitHub.

מכסות ומגבלות

תמחור

  • ‫BigQuery DataFrames הוא קבוצה של ספריות Python בקוד פתוח שזמינות להורדה ללא עלות נוספת.
  • השימוש ב-BigQuery DataFrames כרוך בעלויות של BigQuery, פונקציות Cloud Run, Agent Platform ושירותים אחרים שלCloud de Confiance by S3NS .
  • במהלך שימוש רגיל, BigQuery DataFrames מאחסן נתונים זמניים, כמו תוצאות ביניים, בטבלאות BigQuery. כברירת מחדל, הטבלאות האלה נשמרות למשך שבעה ימים, ותחויבו על הנתונים שמאוחסנים בהן. הטבלאות נוצרות במערך הנתונים _anonymous_ בפרויקט Cloud de Confiance שצוין באפשרות bf.options.bigquery.project.

המאמרים הבאים