התקנת BigQuery DataFrames
BigQuery DataFrames מספק מסגרת נתונים של Python וממשק API ללמידת מכונה (ML) שמבוסס על מנוע BigQuery. BigQuery DataFrames הוא חבילה בקוד פתוח.
התקנת BigQuery DataFrames
כדי להתקין את הגרסה האחרונה של BigQuery DataFrames, מריצים את הפקודה pip install
--upgrade bigframes.
ספריות זמינות
ספריית BigQuery DataFrames כוללת שלוש ספריות:
-
bigframes.pandasמספק pandas API שבעזרתו אפשר לנתח נתונים ב-BigQuery ולבצע בהם מניפולציות. אפשר להעביר הרבה עומסי עבודה מ-pandas ל-bigframes רק על ידי שינוי של כמה יבואים. ממשק ה-API שלbigframes.pandasניתן להרחבה כדי לתמוך בעיבוד של טרה-בייט של נתונים ב-BigQuery, והוא משתמש במנוע השאילתות של BigQuery כדי לבצע חישובים. -
bigframes.bigqueryמספקת הרבה פונקציות SQL של BigQuery שאולי אין להן מקבילה ב-pandas. -
bigframes.mlמספק API דומה ל-API של scikit-learn ל-ML. היכולות של למידת מכונה ב-BigQuery DataFrames מאפשרות לבצע עיבוד מקדים של נתונים, ואז לאמן מודלים על הנתונים האלה. אפשר גם לשרשר את הפעולות האלה כדי ליצור צינורות להעברת נתונים.
התפקידים הנדרשים
כדי לקבל את ההרשאות שדרושות לביצוע המשימות שמתוארות במסמך הזה, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בפרויקט:
-
BigQuery Job User (
roles/bigquery.jobUser) -
BigQuery Read Session User (
roles/bigquery.readSessionUser) -
שימוש ב-BigQuery DataFrames במחברת BigQuery:
-
BigQuery User (
roles/bigquery.user) -
משתמש Notebook Runtime (
roles/aiplatform.notebookRuntimeUser) -
Code Creator (
roles/dataform.codeCreator)
-
BigQuery User (
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.
כשמבצעים אימות של משתמשי קצה בסביבה אינטראקטיבית כמו מחברת, Python REPL או שורת הפקודה, BigQuery DataFrames מציג בקשה לאימות, אם צריך. אחרת, במאמר איך מגדירים Application Default Credentials מוסבר איך עושים את זה בסביבות שונות.
הגדרת אפשרויות ההתקנה
אחרי שמתקינים את BigQuery DataFrames, אפשר לציין את האפשרויות הבאות.
מיקום ופרויקט
צריך לציין את המיקום ואת הפרויקט שבהם רוצים להשתמש ב-BigQuery DataFrames.
אפשר להגדיר את המיקום והפרויקט במחברת באופן הבא:
המיקום של עיבוד הנתונים
ספריית BigQuery DataFrames מיועדת לשימוש בקנה מידה גדול, והיא עושה זאת על ידי שמירת הנתונים והעיבוד בשירות BigQuery. עם זאת, אפשר להעביר נתונים לזיכרון של מכונת הלקוח על ידי קריאה ל-.to_pandas() באובייקט DataFrame או Series. אם תבחרו לעשות זאת, יחולו מגבלות הזיכרון של האפליקציה במחשב הלקוח.
המאמרים הבאים
- מידע נוסף על שינוי נתונים באמצעות BigQuery DataFrames
- איך יוצרים קוד של BigQuery DataFrames באמצעות Gemini
- איך מנתחים הורדות של חבילות מ-PyPI באמצעות BigQuery DataFrames
- אפשר לראות את קוד המקור, מחברות לדוגמה ודוגמאות של BigQuery DataFrames ב-GitHub.
- אפשר לעיין בהפניית API של BigQuery DataFrames.