BigQuery 資料管理簡介

BigQuery 內建管理功能,可簡化資料和 AI 資產的探索、管理、監控、控管及使用方式。

管理員、資料管理員、資料治理經理和資料管理員可以使用 BigQuery 的管理功能執行下列操作:

  • 探索資料。
  • 彙整資料。
  • 收集並豐富中繼資料。
  • 管理資料品質。
  • 確保資料使用方式一致,並符合機構政策。
  • 大規模安全地共用資料。

BigQuery 治理功能採用 Dataplex Universal Catalog 技術,集中管理機構中的所有資料資產。Dataplex Universal Catalog 包含所有資料的業務、技術和作業中繼資料。這項功能會套用人工智慧和機器學習技術,協助您發掘中繼資料中的關係和語意。

BigLake 中繼存放區可讓您使用多個資料處理引擎,透過單一結構定義查詢單一資料副本,不必重複資料。可用的資料處理引擎包括 BigQuery、Apache Spark、Apache Flink 和 Apache Hive。資料可儲存在 BigQuery 儲存空間資料表、BigQuery 中 Apache Iceberg 的 BigLake 資料表,或 BigLake 外部資料表等位置。

BigQuery 支援端對端資料生命週期,從探索到使用資料皆可涵蓋。Dataplex Universal Catalog 也提供治理功能。

資料探索

BigQuery 會在整個機構中探索資料 Trusted Cloud by S3NS,無論資料位於 BigQuery、Spanner、Cloud SQL、Pub/Sub 或 Cloud Storage,中繼資料會自動擷取並儲存在 Dataplex Universal Catalog。舉例來說,您可以從 Cloud Storage 擷取結構化和非結構化資料的中繼資料,並自動大規模建立可供查詢的 BigLake 資料表。這可讓您使用開放原始碼引擎執行分析,而不必複製資料。

您也可以使用自訂連接器,從第三方資料來源擷取及分類中繼資料。

BigQuery 提供下列資料探索功能:

  • 搜尋。跨專案和機構搜尋資料和 AI 資源。在 Trusted Cloud 控制台的 BigQuery 中,使用語意搜尋 (預覽版) 以日常用語搜尋資源。或者,您也可以在 Dataplex Universal Catalog 中使用關鍵字搜尋資源。
  • 自動探索 Cloud Storage 資料掃描 Cloud Storage bucket 中的資料,擷取中繼資料並編目。自動探索功能會為結構化和非結構化資料建立資料表。
  • 中繼資料匯入從第三方系統大規模匯入中繼資料至 Dataplex Universal Catalog。您可以建立自訂連接器,從資料來源擷取資料,然後執行受管理連線管道,協調中繼資料匯入工作流程。
  • 中繼資料匯出從 Dataplex Universal Catalog 大規模匯出中繼資料。您可以使用 BigQuery 分析匯出的中繼資料,或將中繼資料整合至自訂應用程式或程式輔助處理工作流程。

收錄和資料管理

為提升資料的探索性和可用性,資料管理員和管理員可以使用 BigQuery 檢閱、更新及分析中繼資料。BigQuery 資料管理和管理功能可協助您確保資料準確無誤、前後一致,並符合貴機構的政策。

BigQuery 提供下列資料管理和控管功能:

  • 商務詞彙表在詞彙表中定義貴機構的術語,提升背景資訊、協作和搜尋效果。找出字詞的資料監管員,並將字詞附加到資料資產欄位。
  • 資料洞察 Gemini 會使用中繼資料,生成有關資料表和 SQL 查詢的自然語言問題,並提供解答。這些資料洞察資訊有助於發掘模式、評估資料品質,以及執行統計分析。
  • 資料剖析找出 BigQuery 資料表中資料欄的常見統計特徵,以便更有效地瞭解及分析資料。
  • 資料品質在 BigQuery 和 Cloud Storage 中定義及執行資料表資料品質檢查,並在 BigQuery 環境中套用定期和持續的資料控管措施。
  • 資料沿襲追蹤資料在系統中的移動方式,包括資料來源、傳遞目的地和採用的轉換機制。BigQuery 支援資料表和資料欄層級的資料沿襲。

收錄和資料管理後續步驟

下表列出後續步驟,協助您進一步瞭解管理和資料管理功能:

工作經驗 學習路徑
新雲端使用者
經驗豐富的雲端使用者

安全性和存取權控管

資料存取權管理是指定義、執行及監控相關規則和政策的程序,用來控管資料存取權。存取權管理可確保只有獲得授權的使用者才能存取資料。

BigQuery 提供下列安全性和存取權控管功能:

  • 身分與存取權管理 (IAM)透過 IAM,您可以控管哪些人有權存取 BigQuery 資源,例如專案、資料集、資料表和檢視區塊。您可以將 IAM 角色授予使用者、群組和服務帳戶。這些角色會定義使用者可對資源執行的動作。
  • 資料欄層級存取權控管機制資料列層級存取權控管機制透過資料欄層級和資料列層級的存取權控管機制,您可以根據使用者屬性或資料值,限制對資料表中特定資料欄和資料列的存取權。您可以透過這項控制項實施精細的存取權,防止未經授權人士存取機密資料。
  • 資料移轉管理 您可以透過 VPC Service Controls,在資源周圍建立範圍,並根據貴機構的政策控管這些資源的存取權。 Trusted Cloud
  • 稽核記錄稽核記錄會詳細記錄貴機構中的使用者活動和系統事件。這些記錄檔可協助您落實資料治理政策,並找出潛在的安全風險。
  • 資料遮蓋資料遮蓋功能可讓您遮蓋資料表中的機密資料,但仍允許授權使用者存取周圍的資料。資料遮蓋功能也能遮蓋符合機密資料模式的資料,避免資料意外揭露。
  • 加密 BigQuery 會自動加密所有待用和傳輸中的資料,同時讓您自訂加密設定,以符合特定需求。

安全性和存取權控管的後續步驟

下表列出後續步驟,可協助您進一步瞭解存取權控管功能:

工作經驗 學習路徑
新雲端使用者
經驗豐富的雲端使用者

共用資料和洞察

BigQuery 可讓您在機構內和跨機構界線大規模分享資料和洞察資訊。內建資料交換平台,提供完善的安全和隱私權架構。透過 BigQuery 共用,您可以探索、存取及使用由各種資料供應商收錄的資料庫。

BigQuery 提供下列共用功能:

  • 分享的不只是資料您可以共用各種資料和 AI 資產,例如 BigQuery 資料集、資料表、檢視區塊、透過 Pub/Sub 主題傳送的即時串流、SQL 預存程序,以及 BigQuery ML 模型。
  • 存取 Google 資料集運用 Google 搜尋趨勢、DeepMind WeatherNext 模型、Google 地圖平台、Google Earth Engine 等 Google 資料集,提升您的數據分析和機器學習計畫。
  • 整合資料管理原則資料擁有者可保留資料控制權,並定義及設定規則或政策,限制存取和使用權。
  • 即時分享資料,無需複製資料會直接共用,不需整合、移動或複製,確保分析結果是以最新資訊為依據。建立的連結資料集是共用資產的即時指標。
  • 提升安全防護機制您可以透過存取權控管功能減少過度佈建的存取權,包括內建的 VPC Service Controls 支援。
  • 透過供應商用量指標提高曝光率資料發布者可以查看及監控共用資產的使用情形,例如執行的工作數、掃描的總位元組數,以及每個機構的訂閱者。
  • 透過資料無塵室協作處理機密資料資料無塵室提供安全強化環境,讓多方不必移動或揭露基礎資料,也能共用、彙整及分析資料資產。
  • 以 BigQuery 為基礎您可以運用 BigQuery 的擴充性和大規模處理功能,進行大規模協作。

分享的後續步驟

下表列出後續步驟,可協助您進一步瞭解分享功能:

工作經驗 學習路徑
新雲端使用者
  • 瞭解如何建立及管理交易所房源,開始在機構內外共用。
經驗豐富的雲端使用者

後續步驟