使用 BigQuery JupyterLab 外掛程式

如要尋求支援或針對這項功能提供意見回饋,請傳送電子郵件至 bigquery-ide-plugin@google.com

本文說明如何安裝及使用 BigQuery JupyterLab 外掛程式,以執行下列操作:

  • 探索 BigQuery 資料。
  • 使用 BigQuery DataFrames API。
  • 將 BigQuery DataFrames 筆記本部署至 Cloud Composer

BigQuery JupyterLab 外掛程式包含 Dataproc JupyterLab 外掛程式的所有功能,例如建立 Dataproc Serverless 執行階段範本、啟動及管理筆記本、使用 Apache Spark 開發、部署程式碼,以及管理資源。

安裝 BigQuery JupyterLab 外掛程式

如要安裝及使用 BigQuery JupyterLab 外掛程式,請按照下列步驟操作:

  1. 在本機終端機中,確認系統已安裝 Python 3.8 以上版本:

    python3 --version
    
  2. 安裝 gcloud CLI。

  3. 在本機終端機中初始化 gcloud CLI

    gcloud init
    
  4. 安裝 Python 虛擬環境工具 Pipenv:

    pip3 install pipenv
    
  5. 建立新的虛擬環境:

    pipenv shell
    
  6. 在新虛擬環境中安裝 JupyterLab:

    pipenv install jupyterlab
    
  7. 安裝 BigQuery JupyterLab 外掛程式:

    pipenv install bigquery-jupyter-plugin
    
  8. 如果安裝的 JupyterLab 版本早於 4.0.0,請啟用外掛程式擴充功能:

    jupyter server extension enable bigquery_jupyter_plugin
    
  9. 啟動 JupyterLab:

    jupyter lab
    

    JupyterLab 會在瀏覽器中開啟。

更新專案和區域設定

根據預設,工作階段會在您執行 gcloud init 時設定的專案和區域中執行。如要變更工作階段的專案和區域設定,請按照下列步驟操作:

  • 在 JupyterLab 選單中,依序點選「Settings」> Google BigQuery Settings

您必須重新啟動外掛程式,變更才會生效。

探索資料

如要在 JupyterLab 中處理 BigQuery 資料,請按照下列步驟操作:

  1. 在 JupyterLab 側欄中開啟「資料集探索器」窗格:按一下資料集探索器圖示。資料集圖示。
  2. 如要展開專案,請在「資料集探索器」窗格中,按一下專案名稱旁的 展開箭頭。

    「資料集 Explorer」窗格會顯示展開的專案和資料集清單。

    「資料集探索器」窗格會顯示專案中的所有資料集,這些資料集位於您為工作階段設定的 BigQuery 區域。您可以透過多種方式與專案和資料集互動:

    • 如要查看資料集資訊,請按一下資料集名稱。
    • 如要顯示資料集中的所有資料表,請按一下資料集旁的 展開箭頭。
    • 如要查看資料表資訊,請按一下資料表名稱。
    • 如要變更專案或 BigQuery 區域,請更新設定

執行筆記本

如要從 JupyterLab 查詢 BigQuery 資料,請按照下列步驟操作:

  1. 如要開啟啟動器頁面,請依序點選「File」>「New Launcher」
  2. 在「BigQuery Notebooks」部分,按一下「BigQuery DataFrames」資訊卡。系統會開啟新筆記本,說明如何開始使用 BigQuery DataFrames。

BigQuery DataFrames 筆記本支援在本機 Python 核心中開發 Python。BigQuery DataFrames 作業會在 BigQuery 上遠端執行,但其餘程式碼會在您本機電腦上執行。在 BigQuery 中執行作業時,程式碼儲存格下方會顯示查詢作業 ID 和作業連結。

  • 如要在 Trusted Cloud 控制台中查看工作,請按一下「Open Job」(開啟工作)

部署 BigQuery DataFrames 筆記本

您可以使用 Dataproc Serverless 執行階段範本,將 BigQuery DataFrames 筆記本部署至 Cloud Composer。您必須使用 2.1 以上的執行階段版本。

  1. 在 JupyterLab 筆記本中,按一下「calendar_month」calendar_month「Job Scheduler」
  2. 在「Job name」(工作名稱) 欄位中,輸入工作的專屬名稱。
  3. 在「Environment」部分,輸入要部署工作的 Cloud Composer 環境名稱。
  4. 如果筆記本已參數化,請新增參數。
  5. 輸入「無伺服器執行階段範本」的名稱。
  6. 如要處理筆記本執行失敗的問題,請輸入「重試次數」的整數,以及「重試延遲」的值 (以分鐘為單位)。
  7. 選取要傳送哪些執行通知,然後輸入收件者。

    系統會使用 Airflow SMTP 設定傳送通知。

  8. 選取筆記本的排程。

  9. 點選「建立」

成功排定筆記本的執行時間後,所選 Cloud Composer 環境的排定工作清單中就會顯示該筆記本。

後續步驟