安裝 BigQuery DataFrames
BigQuery DataFrames 提供由 BigQuery 引擎支援的 Python DataFrame 和機器學習 (ML) API。BigQuery DataFrames 是開放原始碼套件。
安裝 BigQuery DataFrames
如要安裝最新版 BigQuery DataFrames,請執行 pip install
--upgrade bigframes。
可用的程式庫
BigQuery DataFrames 提供三種程式庫:
bigframes.pandas提供 pandas API,可用於分析及操控 BigQuery 中的資料。只要變更幾個匯入項目,即可將許多工作負載從 pandas 遷移至 bigframes。bigframes.pandasAPI 可擴充,支援處理 TB 級的 BigQuery 資料,且 API 會使用 BigQuery 查詢引擎執行計算。bigframes.bigquery提供許多 BigQuery SQL 函式,可能沒有對應的 pandas 函式。bigframes.ml提供類似於 scikit-learn API 的 ML API。 BigQuery DataFrames 的機器學習功能可讓您預先處理資料,然後根據該資料訓練模型。您也可以將這些動作串連在一起,建立資料管道。
必要的角色
如要取得完成本文件工作所需的權限,請要求管理員在專案中授予您下列 IAM 角色:
-
BigQuery 工作使用者 (
roles/bigquery.jobUser) -
BigQuery 讀取工作階段使用者 (
roles/bigquery.readSessionUser) -
在 BigQuery 筆記本中使用 BigQuery DataFrames:
-
BigQuery 使用者 (
roles/bigquery.user) -
筆記本執行階段使用者 (
roles/aiplatform.notebookRuntimeUser) -
程式碼建立者 (
roles/dataform.codeCreator)
-
BigQuery 使用者 (
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和組織的存取權」。
在筆記本、Python REPL 或命令列等互動式環境中執行使用者驗證時,BigQuery DataFrames 會視需要提示驗證。否則,請參閱如何為各種環境設定應用程式預設憑證。
設定安裝選項
安裝 BigQuery DataFrames 後,您可以指定下列選項。
位置和專案
您需要指定要使用 BigQuery DataFrames 的位置和專案。
您可以在筆記本中定義位置和專案,方法如下:
資料處理位置
BigQuery DataFrames 的設計宗旨是擴充性,因此會將資料和處理作業保留在 BigQuery 服務中,不過,您可以在 DataFrame 或 Series 物件上呼叫 .to_pandas(),將資料帶入用戶端機器的記憶體。如果選擇這麼做,用戶端機器的記憶體限制就會適用。
後續步驟
- 瞭解如何使用 BigQuery DataFrame 操控資料。
- 瞭解如何使用 Gemini 生成 BigQuery DataFrames 程式碼。
- 瞭解如何使用 BigQuery DataFrames 分析 PyPI 的套件下載次數。
- 在 GitHub 上查看 BigQuery DataFrames 的原始碼、範例筆記本和範例。
- 請參閱 BigQuery DataFrames API 參考資料。