管理資料準備作業

本文說明如何在 BigQuery 中管理資料準備作業,包括授予必要的 Identity and Access Management (IAM) 角色,以及在 Dataplex Universal Catalog 中管理中繼資料。

資料準備作業是由 Dataform 驅動的 BigQuery 資源。

事前準備

  1. 確認您已啟用 Gemini for Google Cloud API
  2. 如要在 Dataplex Universal Catalog 中管理資料準備中繼資料,請確保 Trusted Cloud 專案已啟用 Dataplex API

必要的角色

準備資料的使用者和執行作業的 Dataform 服務帳戶,都需要下列身分與存取權管理 (IAM) 角色授予的權限。

取得資料準備功能的使用者存取權

如要取得在 BigQuery 中準備資料所需的權限,請管理員授予您下列 IAM 角色:

如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。

如要進一步瞭解 BigQuery 資料集的 IAM,請參閱「授予資源存取權」。

您或許還可透過自訂角色或其他預先定義的角色取得這些權限。

取得管理中繼資料的權限

如要在 Dataplex Universal Catalog 中管理資料準備中繼資料,請確認您具備必要的 Dataplex Universal Catalog 角色dataform.repositories.get 權限。

授予 Dataform 服務帳戶存取權

為確保 Dataform 服務帳戶具備在 BigQuery 中執行資料準備作業的必要權限,請管理員將下列 IAM 角色授予 Dataform 服務帳戶:

視資料準備管道而定,Dataform 服務帳戶可能需要額外權限。詳情請參閱「授予 Dataform 必要存取權」。

查看現有資料準備作業

如要查看現有資料準備作業的清單,請按照下列步驟操作:

  1. 在「BigQuery」頁面中,前往「Explorer」窗格。
  2. 展開專案。
  3. 展開「資料準備」清單。

透過遞增處理資料,最佳化資料準備作業

如要設定將準備好的資料寫入目的地資料表的方式,請按照下列步驟操作。

  1. 前往 Trusted Cloud 控制台的「BigQuery」頁面。

    前往 BigQuery

  2. 在「Explorer」窗格中,選取資料準備作業。

  3. 在資料準備的工具列中,依序選取「更多」>「寫入模式」

  4. 選取其中一個選項,詳情請參閱「寫入模式」。

  5. 按一下 [儲存]

協助我們改良建議功能

您可以將提交至預先發布版功能的提示資料提供給 Google,協助我們改良 Gemini 建議功能。如要分享提示資料,請按照下列步驟操作:

  1. 在 BigQuery 中開啟資料準備編輯器
  2. 在資料準備工具列中,依序點選「設定」「更多」
  3. 選取「Share data to improve Gemini in BigQuery」(共用資料,協助改良 Gemini in BigQuery)。

資料分享設定會套用至整個專案,且只有具備 serviceusage.services.enableserviceusage.services.list IAM 權限的專案管理員能夠設定。如要進一步瞭解「信任的測試人員」計畫的資料使用方式,請參閱「Gemini for Trusted Cloud 『信任的測試人員』計畫」。

資料準備版本

您可以選擇在存放區內或外部建立資料準備作業。資料準備作業的版本控管方式,取決於資料準備作業的位置。

存放區中的資料準備版本管理

存放區是位於 BigQuery 或第三方供應商的 Git 存放區。您可以在存放區中使用工作區,對資料準備作業執行版本控管。詳情請參閱「使用檔案的版本控管功能」。

存放區外的資料準備作業版本控管

如果 BigQuery 資料準備作業不在存放區中,則不支援查看、比較或還原資料準備作業版本。

如要查看依時間順序排列的資料準備版本清單,請按照下列步驟操作:

  1. 在「BigQuery」頁面中,前往「Explorer」窗格。
  2. 選取資料準備。
  3. 按一下「版本記錄」

下載資料準備檔案

如要以 YAML 檔案下載資料準備作業,請按照下列步驟操作:

  1. 前往 Trusted Cloud 控制台的「BigQuery」頁面。

    前往 BigQuery

  2. 在「Explorer」窗格中,展開專案和「Data preparations」(資料準備) 資料夾。按一下要下載的資料準備作業名稱。

  3. 按一下「下載」。資料準備作業會以 YAML 檔案格式儲存,例如 NAME data preparation.dp.yaml

上傳資料準備檔案

如要從 YAML 檔案上傳資料準備作業,請按照下列步驟操作:

  1. 前往 Trusted Cloud 控制台的「BigQuery」頁面。

    前往 BigQuery

  2. 在「Explorer」窗格中展開專案。

  3. 前往「資料準備」資料夾,然後依序點選「更多」圖示 more_vert「選單」>「上傳至資料準備」。

  4. 在「上傳資料準備作業」對話方塊中,選取要上傳的檔案,或輸入資料準備作業的網址。

  5. 輸入資料準備作業的名稱。

  6. 選取管理及儲存資源的資料準備位置。

  7. 按一下「上傳」。

在 Dataplex Universal Catalog 中管理中繼資料

Dataplex Universal Catalog 可讓您儲存及管理資料準備作業的中繼資料。Dataplex Universal Catalog 預設提供資料準備功能,不需額外設定。

您可以使用 Dataplex Universal Catalog,管理所有 BigQuery 位置的資料準備作業。在 Dataplex Universal Catalog 中管理資料準備作業時,須遵守 Dataplex Universal Catalog 配額和限制,以及 Dataplex Universal Catalog 定價

Dataplex Universal Catalog 會自動從資料準備作業擷取下列中繼資料:

  • 資料資產名稱
  • 資料資產父項
  • 資料資產位置
  • 資料資產類型
  • 對應 Trusted Cloud 專案

Dataplex Universal Catalog 會將資料準備作業記錄為項目,並提供下列項目值:

系統項目群組
資料準備的系統項目群組@dataform。如要在 Dataplex Universal Catalog 中查看資料準備項目的詳細資料,必須查看 dataform 系統項目群組。如要瞭解如何查看項目群組中的所有項目清單,請參閱 Dataplex Universal Catalog 說明文件的「查看項目群組詳細資料」一節。
系統項目類型
資料準備的系統項目類型dataform-code-asset。如要查看資料準備的詳細資料,您需要查看 dataform-code-asset 系統項目類型、使用以層面為準的篩選器篩選結果,並將 dataform-code-asset 層面內的 type 欄位設為 DATA_PREPARATION。然後選取所選資料準備的項目。 如要瞭解如何查看所選項目類型的詳細資料,請參閱 Dataplex Universal Catalog 說明文件中的「查看項目類型的詳細資料」。如要瞭解如何查看所選項目的詳細資料,請參閱 Dataplex Universal Catalog 說明文件的「查看項目的詳細資料」一節。
系統切面類型
資料準備的系統層面類型dataform-code-asset如要透過切面註解資料準備項目,在 Dataplex Universal Catalog 中為資料準備作業提供額外背景資訊,請查看 dataform-code-asset 切面類型、使用以切面為準的篩選器篩選結果,並將 dataform-code-asset 切面內的 type 欄位設為 DATA_PREPARATION。如需為項目加上切面註解的操作說明,請參閱 Dataplex Universal Catalog 說明文件中的「管理切面及豐富中繼資料」一節。
類型
資料畫布的類型為 DATA_PREPARATION。 您可以使用以層面為準的篩選器,在 dataform-code-asset 系統項目類型和 dataform-code-asset 層面類型中,透過 aspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION 查詢篩選資料準備作業。

如需搜尋資產的操作說明,請參閱 Dataplex Universal Catalog 說明文件中的「在 Dataplex Universal Catalog 中搜尋資料資產」。

後續步驟