使用 BigQuery JupyterLab 外掛程式
如要尋求支援或針對這項功能提供意見回饋,請傳送電子郵件至 bigquery-ide-plugin@google.com。
本文說明如何安裝及使用 BigQuery JupyterLab 外掛程式,以執行下列操作:
- 探索 BigQuery 資料。
- 使用 BigQuery DataFrames API。
- 將 BigQuery DataFrames 筆記本部署至 Cloud Composer。
BigQuery JupyterLab 外掛程式包含 Dataproc JupyterLab 外掛程式的所有功能,例如建立 Dataproc Serverless 執行階段範本、啟動及管理筆記本、使用 Apache Spark 開發、部署程式碼,以及管理資源。
安裝 BigQuery JupyterLab 外掛程式
如要安裝及使用 BigQuery JupyterLab 外掛程式,請按照下列步驟操作:
在本機終端機中,確認系統已安裝 Python 3.8 以上版本:
python3 --version
在本機終端機中初始化 gcloud CLI:
gcloud init
安裝 Python 虛擬環境工具 Pipenv:
pip3 install pipenv
建立新的虛擬環境:
pipenv shell
在新虛擬環境中安裝 JupyterLab:
pipenv install jupyterlab
安裝 BigQuery JupyterLab 外掛程式:
pipenv install bigquery-jupyter-plugin
如果安裝的 JupyterLab 版本早於 4.0.0,請啟用外掛程式擴充功能:
jupyter server extension enable bigquery_jupyter_plugin
啟動 JupyterLab:
jupyter lab
JupyterLab 會在瀏覽器中開啟。
更新專案和區域設定
根據預設,工作階段會在您執行 gcloud init
時設定的專案和區域中執行。如要變更工作階段的專案和區域設定,請按照下列步驟操作:
- 在 JupyterLab 選單中,依序點選「Settings」> Google BigQuery Settings。
您必須重新啟動外掛程式,變更才會生效。
探索資料
如要在 JupyterLab 中處理 BigQuery 資料,請按照下列步驟操作:
- 在 JupyterLab 側欄中開啟「資料集探索器」窗格:按一下
資料集圖示。
如要展開專案,請在「資料集探索器」窗格中,按一下專案名稱旁的
展開箭頭。「資料集探索器」窗格會顯示專案中的所有資料集,這些資料集位於您為工作階段設定的 BigQuery 區域。您可以透過多種方式與專案和資料集互動:
- 如要查看資料集資訊,請按一下資料集名稱。
- 如要顯示資料集中的所有資料表,請按一下資料集旁的 展開箭頭。
- 如要查看資料表資訊,請按一下資料表名稱。
- 如要變更專案或 BigQuery 區域,請更新設定。
執行筆記本
如要從 JupyterLab 查詢 BigQuery 資料,請按照下列步驟操作:
- 如要開啟啟動器頁面,請依序點選「File」>「New Launcher」。
- 在「BigQuery Notebooks」部分,按一下「BigQuery DataFrames」資訊卡。系統會開啟新筆記本,說明如何開始使用 BigQuery DataFrames。
BigQuery DataFrames 筆記本支援在本機 Python 核心中開發 Python。BigQuery DataFrames 作業會在 BigQuery 上遠端執行,但其餘程式碼會在您本機電腦上執行。在 BigQuery 中執行作業時,程式碼儲存格下方會顯示查詢作業 ID 和作業連結。
- 如要在 Trusted Cloud 控制台中查看工作,請按一下「Open Job」(開啟工作)。
部署 BigQuery DataFrames 筆記本
您可以使用 Dataproc Serverless 執行階段範本,將 BigQuery DataFrames 筆記本部署至 Cloud Composer。您必須使用 2.1 以上的執行階段版本。
- 在 JupyterLab 筆記本中,按一下「calendar_month」calendar_month「Job Scheduler」。
- 在「Job name」(工作名稱) 欄位中,輸入工作的專屬名稱。
- 在「Environment」部分,輸入要部署工作的 Cloud Composer 環境名稱。
- 如果筆記本已參數化,請新增參數。
- 輸入「無伺服器執行階段範本」的名稱。
- 如要處理筆記本執行失敗的問題,請輸入「重試次數」的整數,以及「重試延遲」的值 (以分鐘為單位)。
選取要傳送哪些執行通知,然後輸入收件者。
系統會使用 Airflow SMTP 設定傳送通知。
選取筆記本的排程。
點選「建立」。
成功排定筆記本的執行時間後,所選 Cloud Composer 環境的排定工作清單中就會顯示該筆記本。
後續步驟
- 試試 BigQuery DataFrames 快速入門。
- 進一步瞭解 BigQuery DataFrames Python API。
- 使用 JupyterLab 執行 Dataproc 的無伺服器批次和筆記本工作階段。