BigQuery のデータ ガバナンスの概要

BigQuery には、データと AI アセットの検出、管理、モニタリング、統制、使用を簡素化するガバナンス機能が組み込まれています。

管理者、データ スチュワード、データ ガバナンス マネージャー、データ管理者は、BigQuery のガバナンス機能を使用して次の操作を行うことができます。

  • データを検出する。
  • データをキュレートする。
  • メタデータを収集して拡充する。
  • データ品質を管理する。
  • データが組織のポリシーに準拠して一貫して使用されていることを確認する。
  • 大規模かつ安全な方法でデータを共有する。

BigQuery のガバナンス機能は、組織内のすべてのデータアセットの一元化されたインベントリである Dataplex Universal Catalog を活用しています。Dataplex Universal Catalog には、すべてのデータのビジネス メタデータ、技術メタデータ、運用メタデータが保存されます。AI と ML を適用することで、メタデータ内の関係とセマンティクスを検出できます。

BigLake metastore を使用すると、複数のデータ処理エンジンを使用して、データの重複なしに、単一のスキーマでデータの単一のコピーにクエリを実行できます。使用できるデータ処理エンジンには、BigQuery、Apache Spark、Apache Flink、Apache Hive などがあります。データは、BigQuery ストレージ テーブル、BigQuery の Apache Iceberg 用 BigLake テーブル、BigLake 外部テーブルなどの場所に保存できます。

BigQuery では、データの検出から使用まで、エンドツーエンドのデータ ライフサイクルをサポートします。ガバナンス機能は、Dataplex Universal Catalog でも利用できます。

データの検出

BigQuery は、データが BigQuery、Spanner、Cloud SQL、Pub/Sub、Cloud Storage のいずれにあるかにかかわらず、 Trusted Cloud by S3NS内の組織全体のデータを検出します。メタデータは自動的に抽出され、Dataplex Universal Catalog に保存されます。たとえば、Cloud Storage から構造化データと非構造化データのメタデータを抽出し、クエリ可能な BigLake テーブルを大規模に自動作成できます。これにより、データ重複なしに、オープンソース エンジンを使用して分析を実行できます。

また、カスタム コネクタを使用して、サードパーティのデータソースからメタデータを抽出してカタログ化することもできます。

BigQuery には、次のデータ検出機能が用意されています。

  • 検索。プロジェクトと組織全体でデータと AI リソースを検索します。 Trusted Cloud コンソールの BigQuery 内で、セマンティック検索プレビュー)を使用して、日常言語でリソースを検索します。または、Dataplex Universal Catalog でキーワード検索を使用してリソースを検索します。
  • Cloud Storage データの自動検出Cloud Storage バケット内のデータをスキャンして、メタデータを抽出してからカタログ化します。自動検出では、構造化データと非構造化データの両方のテーブルが作成されます。
  • メタデータのインポートサードパーティ システムから Dataplex Universal Catalog にメタデータを大規模にインポートします。カスタム コネクタを構築してデータソースからデータを抽出し、メタデータ インポート ワークフローをオーケストレートするマネージド接続パイプラインを実行できます。
  • メタデータのエクスポートDataplex Universal Catalog からメタデータを大規模にエクスポートします。エクスポートされたメタデータは、BigQuery で分析できるほか、カスタム アプリケーションやプログラマティック処理ワークフローに統合することもできます。

キュレーションとデータ スチュワードシップ

データの検出可能性とユーザビリティを向上させるため、データ スチュワードや管理者は BigQuery を使用してメタデータを確認、更新、分析できます。BigQuery のデータ キュレーション機能とデータ スチュワードシップ機能により、データの正確性、整合性、およびデータが組織のポリシーに沿っていることを確認できます。

BigQuery には、次のデータ キュレーション機能とデータ スチュワードシップ機能が用意されています。

  • ビジネス用語集プレビュー)。用語集で組織の用語を定義して、コンテキスト、コラボレーション、検索を改善します。用語のデータ スチュワードを特定し、用語をデータアセット フィールドに関連付けます。
  • データ分析情報Gemini は、メタデータを使用して、テーブルに関する自然言語の質問と、それらに対する回答となる SQL クエリを生成します。これらのデータ分析情報は、パターンの検出、データ品質の評価、統計分析に役立ちます。
  • データ プロファイリングBigQuery テーブル内の列の一般的な統計的特性を特定して、データをより効果的に理解し、分析します。
  • データ品質BigQuery と Cloud Storage のテーブル間でデータ品質チェックを定義して実行し、BigQuery 環境で通常の継続的なデータ管理を適用します。
  • データリネージシステム間のデータの移動(データの送信元、データの送信先、データに適用される変換)を追跡します。BigQuery は、テーブルレベルと列レベルでのデータリネージをサポートしています。

キュレーションとデータ スチュワードシップの次のステップ

次の表に、キュレーション機能とデータ スチュワードシップ機能の詳細を確認するために実施できる次のステップの概要を示します。

経験レベル 学習プログラム
クラウドの新規ユーザー
クラウドの経験豊富なユーザー

セキュリティとアクセス制御

データアクセス管理は、データにアクセスできるユーザーを管理するルールとポリシーを定義、適用、モニタリングするプロセスです。アクセス管理により、承認されたユーザーのみがデータにアクセスできるようになります。

BigQuery には、次のセキュリティ機能とアクセス制御機能が用意されています。

  • Identity and Access Management(IAM)IAM を使用すると、プロジェクト、データセット、テーブル、ビューなどの BigQuery リソースにアクセスできるユーザーを制御できます。IAM のロールは、ユーザー、グループ、サービス アカウントに付与できます。これらのロールは、リソースに対して行える操作を定義します。
  • 列レベルのアクセス制御行レベルのアクセス制御列レベルと行レベルのアクセス制御を使用すると、ユーザー属性またはデータ値に基づいて、テーブル内の特定の列と行へのアクセスを制限できます。この制御により、きめ細かいアクセス権を実装して、機密データを不正アクセスから保護できます。
  • データ転送の管理VPC Service Controls を使用すると、 Trusted Cloudリソースの周囲に境界を作成し、組織のポリシーに基づいてそれらのリソースへのアクセスを制御できます。
  • 監査ログ監査ログは、組織内のユーザー アクティビティとシステム イベントの詳細な記録を提供します。これらのログは、データ ガバナンス ポリシーを適用し、潜在的なセキュリティ リスクを特定するために活用できます。
  • データ マスキングデータ マスキングを使用すると、承認済みユーザーに周辺データへのアクセスを引き続き許可しながら、テーブル内の機密データを難読化できます。データ マスキングでは、機密データのパターンに一致するデータを難読化し、意図しないデータ開示を防止することもできます。
  • 暗号化BigQuery はすべての保存データと転送中のデータを自動的に暗号化するものの、暗号化の設定は独自の要件に合わせてカスタマイズできます。

セキュリティとアクセス制御の次のステップ

次の表に、アクセス制御機能の詳細を確認するために実施できる次のステップの概要を示します。

経験レベル 学習プログラム
クラウドの新規ユーザー
クラウドの経験豊富なユーザー
  • 権限をより柔軟かつ詳細に管理するには、ニーズに合ったカスタムロールの作成を検討してください。
  • 行の制御列の制御を追加して、テーブル内の特定の行と列へのアクセスを制御できます。
  • VPC Service Controls を設定して、 Trusted Cloudリソースの周囲にアクセス境界を確立します。
  • 列レベルのデータ マスキングをテーブルに追加して、機密データを公開することなく、組織全体で情報を共有します。
  • Sensitive Data Protection を使用してデータをスキャンし、個人を特定できる情報(PII)、財務データ、健康情報などのリスクの高い機密情報が含まれていないかどうかを確認します。

共有データと分析情報

BigQuery では、組織の境界内および境界を越えてデータと分析情報を大規模に共有できます。組み込みのデータ交換プラットフォームによる堅牢なセキュリティとプライバシーのフレームワークを備えています。BigQuery Sharing を使用すると、さまざまなデータ プロバイダがキュレートしたデータ ライブラリを見つけてアクセスし、使用できます。

BigQuery には、次の Sharing 機能が用意されています。

  • データ以外のものを共有するBigQuery データセット、テーブル、ビュー、Pub/Sub トピックのリアルタイム ストリーム、SQL ストアド プロシージャ、BigQuery ML モデルなど、さまざまなデータと AI アセットを共有できます。
  • Google データセットにアクセスする検索トレンド、DeepMind WeatherNext モデル、Google Maps Platform、Google Earth Engine などの Google データセットを使用して、分析と ML の取り組みを強化します。
  • データ ガバナンスの原則と統合するデータオーナーはデータを管理し、アクセスと使用を制限するルールまたはポリシーを定義して構成できます。
  • ゼロコピー データ共有をライブで行うデータは、統合、データの移動、複製を必要とせずにその場で共有されるため、分析は最新の情報に基づいて行われます。作成されたリンク済みデータセットは、共有アセットへのライブポインタとなります。
  • セキュリティ ポスチャーを強化するアクセス制御を使用して、組み込みの VPC Service Controls のサポートといった、過剰なプロビジョニング アクセスを削減できます。
  • プロバイダの使用状況の指標により可視性を高めるデータ パブリッシャーは、実行されたジョブ数、スキャンされた合計バイト数、各組織のサブスクライバー数など、共有アセットの使用状況を表示してモニタリングできます。
  • データ クリーンルームを使用して機密データで共同作業を行うデータ クリーンルームは、基盤となるデータを移動または公開することなく、複数の関係者がデータアセットを共有、結合、分析できる、セキュリティが強化された環境を提供します。
  • BigQuery 上に構築するBigQuery のスケーラビリティと膨大な処理能力を活用して、大規模なコラボレーションを実現できます。

Sharing の次のステップ

次の表に、Sharing 機能の詳細を確認するために実施できる次のステップの概要を示します。

経験レベル 学習プログラム
クラウドの新規ユーザー
クラウドの経験豊富なユーザー
  • Pub/Sub トピックを使用してリアルタイムのストリーミング データを共有します。
  • データ クリーンルームを使用して、機密データを共有し、共同作業を行います。
  • 共有アセットの周囲に VPC Service Controls を構成して、データ引き出しに対する保護を強化します。
  • アセットを商用化して Google Cloud Marketplace で販売します。

次のステップ