データ準備を管理する

このドキュメントでは、必要な Identity and Access Management(IAM)ロールの付与や Dataplex Universal Catalog でのメタデータの管理など、BigQuery におけるデータ準備の管理方法について説明します。

データ準備は、Dataform を活用した BigQuery リソースです。

始める前に

  1. Gemini for Google Cloud API が有効になっていることを確認します。
  2. Dataplex Universal Catalog でデータ準備のメタデータを管理するには、 Trusted Cloud プロジェクトで Dataplex API が有効になっていることを確認します。

必要なロール

データを準備するユーザーと、ジョブを実行する Dataform サービス アカウントには、次の Identity and Access Management(IAM)ロールによって付与される権限が必要です。

データ準備のユーザー アクセス権を取得する

BigQuery でのデータ準備に必要な権限を取得するには、次の IAM ロールを付与するよう管理者に依頼します。

ロールの付与については、プロジェクト、フォルダ、組織に対するアクセス権の管理をご覧ください。

BigQuery のデータセットの IAM の詳細については、リソースへのアクセス権を付与するをご覧ください。

カスタムロールや他の事前定義ロールを使用して、これらの権限を取得することもできます。

メタデータを管理するためのアクセス権を取得する

Dataplex Universal Catalog でデータ準備のメタデータを管理するために必要な権限を取得するには、必要な Dataplex Universal Catalog ロールdataform.repositories.get 権限があることを確認します。

Dataform サービス アカウントにアクセス権を付与する

Dataform サービス アカウントに BigQuery でのデータ準備を実行するために必要な権限があることを確認するには、Dataform サービス アカウントに次の IAM ロールを付与するよう管理者に依頼してください。

  • ソーステーブルにアクセスする: テーブル、データセット、またはプロジェクトに対する BigQuery データ閲覧者 roles/bigquery.dataViewer
  • 宛先テーブルにアクセスする: テーブル、データセット、またはプロジェクトに対する BigQuery データ編集者 roles/bigquery.dataEditor

データ準備パイプラインによっては、Dataform サービス アカウントに追加の権限が必要になる場合があります。詳細については、Dataform に必要なアクセス権を付与するをご覧ください。

既存のデータ準備を表示する

既存のデータ準備のリストを表示する手順は次のとおりです。

  1. [BigQuery] ページで、[エクスプローラ] ペインに移動します。
  2. プロジェクトを開きます。
  3. [データの準備] リストを開きます。

データを増分処理してデータ準備を最適化する

準備されたデータを宛先テーブルに書き込む方法を構成する手順は次のとおりです。

  1. Trusted Cloud コンソールで、[BigQuery] ページに移動します。

    BigQuery に移動

  2. [エクスプローラ] ペインで、データ準備を選択します。

  3. データ準備のツールバーで、[さらに表示] > [書き込みモード] を選択します。

  4. 次のいずれかのオプションを選択します。詳細については、書き込みモードをご覧ください。

  5. [保存] をクリックします。

候補の改善に協力する

プレビュー版の機能に送信したプロンプト データを Google と共有することで、Gemini の候補の改善にご協力いただけます。プロンプト データを共有する手順は次のとおりです。

  1. BigQuery でデータ準備エディタを開きます
  2. データ準備ツールバーの [設定] で [その他] をクリックします。
  3. [Gemini in BigQuery を改善するためデータを共有] を選択します。

データ共有設定はプロジェクト全体に適用されます。これは、serviceusage.services.enableserviceusage.services.list の IAM 権限を持つプロジェクト管理者のみ設定できます。Trusted Tester プログラムでのデータの使用について詳しくは、 Trusted Cloud Trusted Tester プログラムの Gemini をご覧ください。

データ準備のバージョン

データ準備は、リポジトリの内側または外側に作成できます。データ準備のバージョニングは、データ準備の場所によって処理が異なります。

リポジトリ内のデータ準備のバージョニング

リポジトリは、BigQuery またはサードパーティ プロバイダ内に存在する Git リポジトリです。リポジトリのワークスペースを使用して、データ準備のバージョン管理を行うことができます。詳細については、ファイルでバージョン管理を使用するをご覧ください。

リポジトリ外のデータ準備のバージョニング

リポジトリにない BigQuery データ準備では、データ準備のバージョンの表示、比較、復元はサポートされていません。

データ準備のバージョンを時系列で確認する手順は次のとおりです。

  1. [BigQuery] ページで、[エクスプローラ] ペインに移動します。
  2. データ準備を選択します。
  3. [ 変更履歴] をクリックします。

データ準備をダウンロードする

データ準備を SQLX ファイルでダウンロードする手順は次のとおりです。

  1. Trusted Cloud コンソールで、[BigQuery] ページに移動します。

    BigQuery に移動

  2. [エクスプローラ] ペインで、プロジェクトと [データ準備] フォルダを開きます。ダウンロードするデータ準備の名前をクリックします。

  3. [ダウンロード] をクリックします。データ準備は SQLX ファイル形式NAME data preparation.dp.sqlx など)で保存されます。

データ準備をアップロードする

SQLX ファイルからデータ準備をアップロードする手順は次のとおりです。

  1. Trusted Cloud コンソールで、[BigQuery] ページに移動します。

    BigQuery に移動

  2. [エクスプローラ] ペインでプロジェクトを開きます。

  3. [データの準備] フォルダに移動し、more_vert メニュー > [データ準備へのアップロード] をクリックします。

  4. [データ準備へのアップロード] ダイアログで、アップロードするファイルを選択するか、データ準備の URL を入力します。

  5. データ準備の名前を入力します。

  6. リソースが管理および保存されるデータ準備の場所を選択します。

  7. [アップロード] をクリックします。

Dataplex Universal Catalog でメタデータを管理する

Dataplex Universal Catalog を使用すると、データ準備のメタデータを保存して管理できます。データ準備は、追加の構成なしでデフォルトで Dataplex Universal Catalog で使用できます。

Dataplex Universal Catalog を使用すると、すべての BigQuery ロケーションでデータ準備を管理できます。Dataplex Universal Catalog でデータ準備を管理する場合は、Dataplex Universal Catalog の割り当てと上限および Dataplex Universal Catalog の料金が適用されます。

Dataplex Universal Catalog は、データ準備から次のメタデータを自動的に取得します。

  • データアセット名
  • データアセットの親
  • データアセットのロケーション
  • データアセットのタイプ
  • 対応する Trusted Cloud プロジェクト

Dataplex Universal Catalog は、次のエントリ値を含むエントリとして、データ準備をログに記録します。

システム エントリ グループ
データ準備のシステム エントリ グループ@dataform です。Dataplex Universal Catalog でデータ準備エントリの詳細を表示するには、dataform システム エントリ グループを表示する必要があります。エントリ グループ内のすべてのエントリのリストを表示する方法については、Dataplex のドキュメントのエントリ グループの詳細を表示するをご覧ください。
システム エントリのタイプ
データ準備のシステム エントリタイプdataform-code-asset です。データ準備の詳細を表示するには、dataform-code-asset システム エントリタイプを表示し、アスペクトベースのフィルタで結果をフィルタして、dataform-code-asset アスペクト内の type フィールドを DATA_PREPARATION に設定する必要があります。次に、選択したデータ準備のエントリを選択します。選択したエントリタイプの詳細を表示する手順については、Dataplex Universal Catalog ドキュメントのエントリタイプの詳細を表示するをご覧ください。選択したエントリの詳細を表示する手順については、Dataplex Universal Catalog ドキュメントのエントリの詳細を表示するをご覧ください。
システム アスペクト タイプ
データ準備のシステム アスペクト タイプdataform-code-asset です。データ準備エントリにアスペクトをアノテーションして Dataplex Universal Catalog のデータ準備に追加のコンテキストを提供するには、dataform-code-asset アスペクト タイプを表示し、アスペクトベースのフィルタで結果をフィルタして、dataform-code-asset アスペクト内の type フィールドを DATA_PREPARATION に設定します。エントリにアスペクトをアノテーションする方法については、Dataplex Universal Catalog ドキュメントのアスペクトを管理してメタデータを拡充するをご覧ください。
タイプ
データ キャンバスのタイプは DATA_PREPARATION です。このタイプを使用すると、アスペクトベースのフィルタaspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION クエリを使用して、dataform-code-asset システム エントリタイプと dataform-code-asset アスペクト タイプのデータ準備をフィルタできます。

アセットを検索する方法については、Dataplex Universal Catalog ドキュメントの Dataplex Universal Catalog でデータアセットを検索するをご覧ください。

次のステップ