データ準備を管理する
このドキュメントでは、必要な Identity and Access Management(IAM)ロールの付与や Dataplex Universal Catalog でのメタデータの管理など、BigQuery におけるデータ準備の管理方法について説明します。
データ準備は、Dataform を活用した BigQuery リソースです。
始める前に
- Gemini for Google Cloud API が有効になっていることを確認します。
- Dataplex Universal Catalog でデータ準備のメタデータを管理するには、 Trusted Cloud プロジェクトで Dataplex API が有効になっていることを確認します。
必要なロール
データを準備するユーザーと、ジョブを実行する Dataform サービス アカウントには、次の Identity and Access Management(IAM)ロールによって付与される権限が必要です。
データ準備のユーザー アクセス権を取得する
BigQuery でのデータ準備に必要な権限を取得するには、次の IAM ロールを付与するよう管理者に依頼します。
-
プロジェクトに対する BigQuery Studio ユーザー (
roles/bigquery.studioUser
) -
プロジェクトに対する Gemini for Google Cloud ユーザー (
roles/cloudaicompanion.user
) -
ソーステーブルにアクセスする: テーブル、データセット、またはプロジェクトに対する BigQuery データ閲覧者 (
roles/bigquery.dataViewer
)
ロールの付与については、プロジェクト、フォルダ、組織に対するアクセス権の管理をご覧ください。
BigQuery のデータセットの IAM の詳細については、リソースへのアクセス権を付与するをご覧ください。カスタムロールや他の事前定義ロールを使用して、これらの権限を取得することもできます。
メタデータを管理するためのアクセス権を取得する
Dataplex Universal Catalog でデータ準備のメタデータを管理するために必要な権限を取得するには、必要な Dataplex Universal Catalog ロールと dataform.repositories.get
権限があることを確認します。
Dataform サービス アカウントにアクセス権を付与する
Dataform サービス アカウントに BigQuery でのデータ準備を実行するために必要な権限があることを確認するには、Dataform サービス アカウントに次の IAM ロールを付与するよう管理者に依頼してください。
-
ソーステーブルにアクセスする: テーブル、データセット、またはプロジェクトに対する BigQuery データ閲覧者 (
roles/bigquery.dataViewer
) -
宛先テーブルにアクセスする: テーブル、データセット、またはプロジェクトに対する BigQuery データ編集者 (
roles/bigquery.dataEditor
)
データ準備パイプラインによっては、Dataform サービス アカウントに追加の権限が必要になる場合があります。詳細については、Dataform に必要なアクセス権を付与するをご覧ください。
既存のデータ準備を表示する
既存のデータ準備のリストを表示する手順は次のとおりです。
- [BigQuery] ページで、[エクスプローラ] ペインに移動します。
- プロジェクトを開きます。
- [データの準備] リストを開きます。
データを増分処理してデータ準備を最適化する
準備されたデータを宛先テーブルに書き込む方法を構成する手順は次のとおりです。
Trusted Cloud コンソールで、[BigQuery] ページに移動します。
[エクスプローラ] ペインで、データ準備を選択します。
データ準備のツールバーで、[さらに表示] > [書き込みモード] を選択します。
次のいずれかのオプションを選択します。詳細については、書き込みモードをご覧ください。
[保存] をクリックします。
候補の改善に協力する
プレビュー版の機能に送信したプロンプト データを Google と共有することで、Gemini の候補の改善にご協力いただけます。プロンプト データを共有する手順は次のとおりです。
- BigQuery でデータ準備エディタを開きます。
- データ準備ツールバーの [設定] で [その他] をクリックします。
- [Gemini in BigQuery を改善するためデータを共有] を選択します。
データ共有設定はプロジェクト全体に適用されます。これは、serviceusage.services.enable
と serviceusage.services.list
の IAM 権限を持つプロジェクト管理者のみ設定できます。Trusted Tester プログラムでのデータの使用について詳しくは、 Trusted Cloud Trusted Tester プログラムの Gemini をご覧ください。
データ準備のバージョン
データ準備は、リポジトリの内側または外側に作成できます。データ準備のバージョニングは、データ準備の場所によって処理が異なります。
リポジトリ内のデータ準備のバージョニング
リポジトリは、BigQuery またはサードパーティ プロバイダ内に存在する Git リポジトリです。リポジトリのワークスペースを使用して、データ準備のバージョン管理を行うことができます。詳細については、ファイルでバージョン管理を使用するをご覧ください。
リポジトリ外のデータ準備のバージョニング
リポジトリにない BigQuery データ準備では、データ準備のバージョンの表示、比較、復元はサポートされていません。
データ準備のバージョンを時系列で確認する手順は次のとおりです。
- [BigQuery] ページで、[エクスプローラ] ペインに移動します。
- データ準備を選択します。
- [ 変更履歴] をクリックします。
データ準備をダウンロードする
データ準備を SQLX ファイルでダウンロードする手順は次のとおりです。
Trusted Cloud コンソールで、[BigQuery] ページに移動します。
[エクスプローラ] ペインで、プロジェクトと [データ準備] フォルダを開きます。ダウンロードするデータ準備の名前をクリックします。
[ダウンロード] をクリックします。データ準備は SQLX ファイル形式(
NAME data preparation.dp.sqlx
など)で保存されます。
データ準備をアップロードする
SQLX ファイルからデータ準備をアップロードする手順は次のとおりです。
Trusted Cloud コンソールで、[BigQuery] ページに移動します。
[エクスプローラ] ペインでプロジェクトを開きます。
[データの準備] フォルダに移動し、more_vert メニュー > [データ準備へのアップロード] をクリックします。
[データ準備へのアップロード] ダイアログで、アップロードするファイルを選択するか、データ準備の URL を入力します。
データ準備の名前を入力します。
リソースが管理および保存されるデータ準備の場所を選択します。
[アップロード] をクリックします。
Dataplex Universal Catalog でメタデータを管理する
Dataplex Universal Catalog を使用すると、データ準備のメタデータを保存して管理できます。データ準備は、追加の構成なしでデフォルトで Dataplex Universal Catalog で使用できます。
Dataplex Universal Catalog を使用すると、すべての BigQuery ロケーションでデータ準備を管理できます。Dataplex Universal Catalog でデータ準備を管理する場合は、Dataplex Universal Catalog の割り当てと上限および Dataplex Universal Catalog の料金が適用されます。
Dataplex Universal Catalog は、データ準備から次のメタデータを自動的に取得します。
- データアセット名
- データアセットの親
- データアセットのロケーション
- データアセットのタイプ
- 対応する Trusted Cloud プロジェクト
Dataplex Universal Catalog は、次のエントリ値を含むエントリとして、データ準備をログに記録します。
- システム エントリ グループ
- データ準備のシステム エントリ グループは
@dataform
です。Dataplex Universal Catalog でデータ準備エントリの詳細を表示するには、dataform
システム エントリ グループを表示する必要があります。エントリ グループ内のすべてのエントリのリストを表示する方法については、Dataplex のドキュメントのエントリ グループの詳細を表示するをご覧ください。 - システム エントリのタイプ
- データ準備のシステム エントリタイプは
dataform-code-asset
です。データ準備の詳細を表示するには、dataform-code-asset
システム エントリタイプを表示し、アスペクトベースのフィルタで結果をフィルタして、dataform-code-asset
アスペクト内のtype
フィールドをDATA_PREPARATION
に設定する必要があります。次に、選択したデータ準備のエントリを選択します。選択したエントリタイプの詳細を表示する手順については、Dataplex Universal Catalog ドキュメントのエントリタイプの詳細を表示するをご覧ください。選択したエントリの詳細を表示する手順については、Dataplex Universal Catalog ドキュメントのエントリの詳細を表示するをご覧ください。 - システム アスペクト タイプ
- データ準備のシステム アスペクト タイプは
dataform-code-asset
です。データ準備エントリにアスペクトをアノテーションして Dataplex Universal Catalog のデータ準備に追加のコンテキストを提供するには、dataform-code-asset
アスペクト タイプを表示し、アスペクトベースのフィルタで結果をフィルタして、dataform-code-asset
アスペクト内のtype
フィールドをDATA_PREPARATION
に設定します。エントリにアスペクトをアノテーションする方法については、Dataplex Universal Catalog ドキュメントのアスペクトを管理してメタデータを拡充するをご覧ください。 - タイプ
- データ キャンバスのタイプは
DATA_PREPARATION
です。このタイプを使用すると、アスペクトベースのフィルタでaspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION
クエリを使用して、dataform-code-asset
システム エントリタイプとdataform-code-asset
アスペクト タイプのデータ準備をフィルタできます。
アセットを検索する方法については、Dataplex Universal Catalog ドキュメントの Dataplex Universal Catalog でデータアセットを検索するをご覧ください。
次のステップ
- BigQuery でのデータ準備について詳細を確認する。
- データ準備を手動またはスケジュールで実行する方法を確認する。
- データ準備を作成する方法について確認する。