BigQuery のデータ ガバナンスの概要
BigQuery には、データと AI アセットの検出、管理、モニタリング、統制、使用を簡素化するガバナンス機能が組み込まれています。
管理者、データ スチュワード、データ ガバナンス マネージャー、データ管理者は、BigQuery のガバナンス機能を使用して次の操作を行うことができます。
- データを検出する。
- データをキュレートする。
- メタデータを収集して拡充する。
- データ品質を管理する。
- データが組織のポリシーに準拠して一貫して使用されていることを確認する。
- 大規模かつ安全な方法でデータを共有する。
BigQuery のガバナンス機能は、組織内のすべてのデータアセットの一元化されたインベントリである Dataplex Universal Catalog を活用しています。Dataplex Universal Catalog には、すべてのデータのビジネス メタデータ、技術メタデータ、運用メタデータが保存されます。AI と ML を適用することで、メタデータ内の関係とセマンティクスを検出できます。
BigLake metastore を使用すると、複数のデータ処理エンジンを使用して、データの重複なしに、単一のスキーマでデータの単一のコピーにクエリを実行できます。使用できるデータ処理エンジンには、BigQuery、Apache Spark、Apache Flink、Apache Hive などがあります。データは、BigQuery ストレージ テーブル、BigQuery の Apache Iceberg 用 BigLake テーブル、BigLake 外部テーブルなどの場所に保存できます。
BigQuery では、データの検出から使用まで、エンドツーエンドのデータ ライフサイクルをサポートします。ガバナンス機能は、Dataplex Universal Catalog でも利用できます。
データの検出
BigQuery は、データが BigQuery、Spanner、Cloud SQL、Pub/Sub、Cloud Storage のいずれにあるかにかかわらず、 Trusted Cloud by S3NS内の組織全体のデータを検出します。メタデータは自動的に抽出され、Dataplex Universal Catalog に保存されます。たとえば、Cloud Storage から構造化データと非構造化データのメタデータを抽出し、クエリ可能な BigLake テーブルを大規模に自動作成できます。これにより、データ重複なしに、オープンソース エンジンを使用して分析を実行できます。
また、カスタム コネクタを使用して、サードパーティのデータソースからメタデータを抽出してカタログ化することもできます。
BigQuery には、次のデータ検出機能が用意されています。
- 検索。プロジェクトと組織全体でデータと AI リソースを検索します。 Trusted Cloud コンソールの BigQuery 内で、セマンティック検索(プレビュー)を使用して、日常言語でリソースを検索します。または、Dataplex Universal Catalog でキーワード検索を使用してリソースを検索します。
- Cloud Storage データの自動検出。Cloud Storage バケット内のデータをスキャンして、メタデータを抽出してからカタログ化します。自動検出では、構造化データと非構造化データの両方のテーブルが作成されます。
- メタデータのインポート。サードパーティ システムから Dataplex Universal Catalog にメタデータを大規模にインポートします。カスタム コネクタを構築してデータソースからデータを抽出し、メタデータ インポート ワークフローをオーケストレートするマネージド接続パイプラインを実行できます。
- メタデータのエクスポート。Dataplex Universal Catalog からメタデータを大規模にエクスポートします。エクスポートされたメタデータは、BigQuery で分析できるほか、カスタム アプリケーションやプログラマティック処理ワークフローに統合することもできます。
キュレーションとデータ スチュワードシップ
データの検出可能性とユーザビリティを向上させるため、データ スチュワードや管理者は BigQuery を使用してメタデータを確認、更新、分析できます。BigQuery のデータ キュレーション機能とデータ スチュワードシップ機能により、データの正確性、整合性、およびデータが組織のポリシーに沿っていることを確認できます。
BigQuery には、次のデータ キュレーション機能とデータ スチュワードシップ機能が用意されています。
- ビジネス用語集(プレビュー)。用語集で組織の用語を定義して、コンテキスト、コラボレーション、検索を改善します。用語のデータ スチュワードを特定し、用語をデータアセット フィールドに関連付けます。
- データ分析情報。Gemini は、メタデータを使用して、テーブルに関する自然言語の質問と、それらに対する回答となる SQL クエリを生成します。これらのデータ分析情報は、パターンの検出、データ品質の評価、統計分析に役立ちます。
- データ プロファイリング。BigQuery テーブル内の列の一般的な統計的特性を特定して、データをより効果的に理解し、分析します。
- データ品質。BigQuery と Cloud Storage のテーブル間でデータ品質チェックを定義して実行し、BigQuery 環境で通常の継続的なデータ管理を適用します。
- データリネージ。システム間のデータの移動(データの送信元、データの送信先、データに適用される変換)を追跡します。BigQuery は、テーブルレベルと列レベルでのデータリネージをサポートしています。
キュレーションとデータ スチュワードシップの次のステップ
次の表に、キュレーション機能とデータ スチュワードシップ機能の詳細を確認するために実施できる次のステップの概要を示します。
経験レベル | 学習プログラム |
---|---|
クラウドの新規ユーザー |
|
クラウドの経験豊富なユーザー |
|
セキュリティとアクセス制御
データアクセス管理は、データにアクセスできるユーザーを管理するルールとポリシーを定義、適用、モニタリングするプロセスです。アクセス管理により、承認されたユーザーのみがデータにアクセスできるようになります。
BigQuery には、次のセキュリティ機能とアクセス制御機能が用意されています。
- Identity and Access Management(IAM)。IAM を使用すると、プロジェクト、データセット、テーブル、ビューなどの BigQuery リソースにアクセスできるユーザーを制御できます。IAM のロールは、ユーザー、グループ、サービス アカウントに付与できます。これらのロールは、リソースに対して行える操作を定義します。
- 列レベルのアクセス制御と行レベルのアクセス制御。列レベルと行レベルのアクセス制御を使用すると、ユーザー属性またはデータ値に基づいて、テーブル内の特定の列と行へのアクセスを制限できます。この制御により、きめ細かいアクセス権を実装して、機密データを不正アクセスから保護できます。
- データ転送の管理。VPC Service Controls を使用すると、 Trusted Cloudリソースの周囲に境界を作成し、組織のポリシーに基づいてそれらのリソースへのアクセスを制御できます。
- 監査ログ。監査ログは、組織内のユーザー アクティビティとシステム イベントの詳細な記録を提供します。これらのログは、データ ガバナンス ポリシーを適用し、潜在的なセキュリティ リスクを特定するために活用できます。
- データ マスキング。データ マスキングを使用すると、承認済みユーザーに周辺データへのアクセスを引き続き許可しながら、テーブル内の機密データを難読化できます。データ マスキングでは、機密データのパターンに一致するデータを難読化し、意図しないデータ開示を防止することもできます。
- 暗号化。BigQuery はすべての保存データと転送中のデータを自動的に暗号化するものの、暗号化の設定は独自の要件に合わせてカスタマイズできます。
セキュリティとアクセス制御の次のステップ
次の表に、アクセス制御機能の詳細を確認するために実施できる次のステップの概要を示します。
経験レベル | 学習プログラム |
---|---|
クラウドの新規ユーザー | |
クラウドの経験豊富なユーザー |
|
共有データと分析情報
BigQuery では、組織の境界内および境界を越えてデータと分析情報を大規模に共有できます。組み込みのデータ交換プラットフォームによる堅牢なセキュリティとプライバシーのフレームワークを備えています。BigQuery Sharing を使用すると、さまざまなデータ プロバイダがキュレートしたデータ ライブラリを見つけてアクセスし、使用できます。
BigQuery には、次の Sharing 機能が用意されています。
- データ以外のものを共有する。BigQuery データセット、テーブル、ビュー、Pub/Sub トピックのリアルタイム ストリーム、SQL ストアド プロシージャ、BigQuery ML モデルなど、さまざまなデータと AI アセットを共有できます。
- Google データセットにアクセスする。検索トレンド、DeepMind WeatherNext モデル、Google Maps Platform、Google Earth Engine などの Google データセットを使用して、分析と ML の取り組みを強化します。
- データ ガバナンスの原則と統合する。データオーナーはデータを管理し、アクセスと使用を制限するルールまたはポリシーを定義して構成できます。
- ゼロコピー データ共有をライブで行う。データは、統合、データの移動、複製を必要とせずにその場で共有されるため、分析は最新の情報に基づいて行われます。作成されたリンク済みデータセットは、共有アセットへのライブポインタとなります。
- セキュリティ ポスチャーを強化する。アクセス制御を使用して、組み込みの VPC Service Controls のサポートといった、過剰なプロビジョニング アクセスを削減できます。
- プロバイダの使用状況の指標により可視性を高める。データ パブリッシャーは、実行されたジョブ数、スキャンされた合計バイト数、各組織のサブスクライバー数など、共有アセットの使用状況を表示してモニタリングできます。
- データ クリーンルームを使用して機密データで共同作業を行う。データ クリーンルームは、基盤となるデータを移動または公開することなく、複数の関係者がデータアセットを共有、結合、分析できる、セキュリティが強化された環境を提供します。
- BigQuery 上に構築する。BigQuery のスケーラビリティと膨大な処理能力を活用して、大規模なコラボレーションを実現できます。
Sharing の次のステップ
次の表に、Sharing 機能の詳細を確認するために実施できる次のステップの概要を示します。
経験レベル | 学習プログラム |
---|---|
クラウドの新規ユーザー | |
クラウドの経験豊富なユーザー |
|
次のステップ
- Google での認証について学習する。
- 詳しくは、 Trusted Cloudでのデータ削除について学習する。
- IAM のベスト プラクティスの詳細を確認する。
- Trusted Cloudのリソース階層について学習する。
- Trusted Cloudでの IAM について学習する。