管理資料準備作業
本文說明如何在 BigQuery 中管理資料準備作業,包括授予必要的 Identity and Access Management (IAM) 角色,以及在 Dataplex Universal Catalog 中管理中繼資料。
資料準備作業是由 Dataform 驅動的 BigQuery 資源。
事前準備
- 確認您已啟用 Gemini for Google Cloud API。
- 如要在 Dataplex Universal Catalog 中管理資料準備中繼資料,請確保 Trusted Cloud 專案已啟用 Dataplex API。
必要的角色
準備資料的使用者和執行作業的 Dataform 服務帳戶,都需要下列身分與存取權管理 (IAM) 角色授予的權限。
取得資料準備功能的使用者存取權
如要取得在 BigQuery 中準備資料所需的權限,請管理員授予您下列 IAM 角色:
-
BigQuery Studio 使用者 (
roles/bigquery.studioUser
) 專案 -
Gemini for Google Cloud 使用者 (
roles/cloudaicompanion.user
) 專案 -
存取來源資料表:
資料表、資料集或專案的 BigQuery 資料檢視者 (
roles/bigquery.dataViewer
)
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。
如要進一步瞭解 BigQuery 資料集的 IAM,請參閱「授予資源存取權」。取得管理中繼資料的權限
如要在 Dataplex Universal Catalog 中管理資料準備中繼資料,請確認您具備必要的 Dataplex Universal Catalog 角色和 dataform.repositories.get
權限。
授予 Dataform 服務帳戶存取權
為確保 Dataform 服務帳戶具備在 BigQuery 中執行資料準備作業的必要權限,請管理員將下列 IAM 角色授予 Dataform 服務帳戶:
-
存取來源資料表:
資料表、資料集或專案的 BigQuery 資料檢視者 (
roles/bigquery.dataViewer
) -
存取目的地資料表:
資料表、資料集或專案的 BigQuery 資料編輯者 (
roles/bigquery.dataEditor
)
視資料準備管道而定,Dataform 服務帳戶可能需要額外權限。詳情請參閱「授予 Dataform 必要存取權」。
查看現有資料準備作業
如要查看現有資料準備作業的清單,請按照下列步驟操作:
- 在「BigQuery」頁面中,前往「Explorer」窗格。
- 展開專案。
- 展開「資料準備」清單。
透過遞增處理資料,最佳化資料準備作業
如要設定將準備好的資料寫入目的地資料表的方式,請按照下列步驟操作。
前往 Trusted Cloud 控制台的「BigQuery」頁面。
在「Explorer」窗格中,選取資料準備作業。
在資料準備的工具列中,依序選取「更多」>「寫入模式」。
選取其中一個選項,詳情請參閱「寫入模式」。
按一下 [儲存]。
協助我們改良建議功能
您可以將提交至預先發布版功能的提示資料提供給 Google,協助我們改良 Gemini 建議功能。如要分享提示資料,請按照下列步驟操作:
- 在 BigQuery 中開啟資料準備編輯器。
- 在資料準備工具列中,依序點選「設定」「更多」。
- 選取「Share data to improve Gemini in BigQuery」(共用資料,協助改良 Gemini in BigQuery)。
資料分享設定會套用至整個專案,且只有具備 serviceusage.services.enable
和 serviceusage.services.list
IAM 權限的專案管理員能夠設定。如要進一步瞭解「信任的測試人員」計畫的資料使用方式,請參閱「Gemini for Trusted Cloud 『信任的測試人員』計畫」。
資料準備版本
您可以選擇在存放區內或外部建立資料準備作業。資料準備作業的版本控管方式,取決於資料準備作業的位置。
存放區中的資料準備版本管理
存放區是位於 BigQuery 或第三方供應商的 Git 存放區。您可以在存放區中使用工作區,對資料準備作業執行版本控管。詳情請參閱「使用檔案的版本控管功能」。
存放區外的資料準備作業版本控管
如果 BigQuery 資料準備作業不在存放區中,則不支援查看、比較或還原資料準備作業版本。
如要查看依時間順序排列的資料準備版本清單,請按照下列步驟操作:
- 在「BigQuery」頁面中,前往「Explorer」窗格。
- 選取資料準備。
- 按一下「版本記錄」 。
下載資料準備檔案
如要以 YAML 檔案下載資料準備作業,請按照下列步驟操作:
前往 Trusted Cloud 控制台的「BigQuery」頁面。
在「Explorer」窗格中,展開專案和「Data preparations」(資料準備) 資料夾。按一下要下載的資料準備作業名稱。
按一下「下載」。資料準備作業會以 YAML 檔案格式儲存,例如
NAME data preparation.dp.yaml
。
上傳資料準備檔案
如要從 YAML 檔案上傳資料準備作業,請按照下列步驟操作:
前往 Trusted Cloud 控制台的「BigQuery」頁面。
在「Explorer」窗格中展開專案。
前往「資料準備」資料夾,然後依序點選「更多」圖示 more_vert「選單」>「上傳至資料準備」。
在「上傳資料準備作業」對話方塊中,選取要上傳的檔案,或輸入資料準備作業的網址。
輸入資料準備作業的名稱。
選取管理及儲存資源的資料準備位置。
按一下「上傳」。
在 Dataplex Universal Catalog 中管理中繼資料
Dataplex Universal Catalog 可讓您儲存及管理資料準備作業的中繼資料。Dataplex Universal Catalog 預設提供資料準備功能,不需額外設定。
您可以使用 Dataplex Universal Catalog,管理所有 BigQuery 位置的資料準備作業。在 Dataplex Universal Catalog 中管理資料準備作業時,須遵守 Dataplex Universal Catalog 配額和限制,以及 Dataplex Universal Catalog 定價。
Dataplex Universal Catalog 會自動從資料準備作業擷取下列中繼資料:
- 資料資產名稱
- 資料資產父項
- 資料資產位置
- 資料資產類型
- 對應 Trusted Cloud 專案
Dataplex Universal Catalog 會將資料準備作業記錄為項目,並提供下列項目值:
- 系統項目群組
- 資料準備的系統項目群組為
@dataform
。如要在 Dataplex Universal Catalog 中查看資料準備項目的詳細資料,必須查看dataform
系統項目群組。如要瞭解如何查看項目群組中的所有項目清單,請參閱 Dataplex Universal Catalog 說明文件的「查看項目群組詳細資料」一節。 - 系統項目類型
- 資料準備的系統項目類型為
dataform-code-asset
。如要查看資料準備的詳細資料,您需要查看dataform-code-asset
系統項目類型、使用以層面為準的篩選器篩選結果,並將dataform-code-asset
層面內的type
欄位設為DATA_PREPARATION
。然後選取所選資料準備的項目。 如要瞭解如何查看所選項目類型的詳細資料,請參閱 Dataplex Universal Catalog 說明文件中的「查看項目類型的詳細資料」。如要瞭解如何查看所選項目的詳細資料,請參閱 Dataplex Universal Catalog 說明文件的「查看項目的詳細資料」一節。 - 系統切面類型
- 資料準備的系統層面類型為
dataform-code-asset
。如要透過切面註解資料準備項目,在 Dataplex Universal Catalog 中為資料準備作業提供額外背景資訊,請查看dataform-code-asset
切面類型、使用以切面為準的篩選器篩選結果,並將dataform-code-asset
切面內的type
欄位設為DATA_PREPARATION
。如需為項目加上切面註解的操作說明,請參閱 Dataplex Universal Catalog 說明文件中的「管理切面及豐富中繼資料」一節。 - 類型
- 資料畫布的類型為
DATA_PREPARATION
。 您可以使用以層面為準的篩選器,在dataform-code-asset
系統項目類型和dataform-code-asset
層面類型中,透過aspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION
查詢篩選資料準備作業。
如需搜尋資產的操作說明,請參閱 Dataplex Universal Catalog 說明文件中的「在 Dataplex Universal Catalog 中搜尋資料資產」。
後續步驟
- 進一步瞭解如何在 BigQuery 中準備資料。
- 瞭解如何手動或排程執行資料準備作業。
- 瞭解如何建立資料準備作業。