Introduzione alla governance dei dati in BigQuery

BigQuery dispone di funzionalità di governance integrate che semplificano la scoperta, la gestione, il monitoraggio, la governance e l'utilizzo dei tuoi dati e asset AI.

Amministratori, responsabili della gestione dei dati, responsabili della governance dei dati e custodi dei dati possono utilizzare le funzionalità di governance in BigQuery per:

  • Scopri i dati.
  • Selezionare i dati.
  • Raccogliere e arricchire i metadati.
  • Gestire la qualità dei dati.
  • Assicurati che i dati vengano utilizzati in modo coerente e in conformità alle norme dell'organizzazione.
  • Condividi i dati su larga scala e in modo sicuro.

Le funzionalità di governance di BigQuery sono basate su Dataplex Universal Catalog, un inventario centralizzato di tutti gli asset di dati della tua organizzazione. Dataplex Universal Catalog contiene metadati aziendali, tecnici e operativi per tutti i tuoi dati. Ti aiuta a scoprire le relazioni e la semantica nei metadati applicando l'intelligenza artificiale e il machine learning.

Il metastore BigLake ti consente di utilizzare più motori di elaborazione dei dati per eseguire query su una singola copia dei dati con un unico schema, senza duplicazione dei dati. I motori di elaborazione dei dati che puoi utilizzare includono BigQuery, Apache Spark, Apache Flink e Apache Hive. I dati possono essere archiviati in posizioni come tabelle di archiviazione BigQuery, tabelle BigLake per Apache Iceberg in BigQuery o tabelle esterne BigLake.

BigQuery supporta un ciclo di vita dei dati end-to-end, dalla scoperta all'utilizzo dei dati. Le funzionalità di governance sono disponibili anche in Dataplex Universal Catalog.

Rilevamento dati

BigQuery rileva i dati in tutta l'organizzazione in Trusted Cloud by S3NS, indipendentemente dal fatto che si trovino in BigQuery, Spanner, Cloud SQL, Pub/Sub o Cloud Storage. I metadati vengono estratti e archiviati automaticamente in Dataplex Universal Catalog. Ad esempio, puoi estrarre metadati per dati strutturati e non strutturati da Cloud Storage e creare automaticamente tabelle BigLake pronte per le query su larga scala. In questo modo puoi eseguire l'analisi con un motore open source senza duplicare i dati.

Puoi anche estrarre e catalogare i metadati da origini dati di terze parti utilizzando connettori personalizzati.

BigQuery offre le seguenti funzionalità di rilevamento dei dati:

  • Ricerca. Cerca risorse di dati e AI in tutti i progetti e nell'organizzazione. In BigQuery nella console Trusted Cloud , utilizza la ricerca semantica (anteprima) per cercare risorse utilizzando un linguaggio comune. In alternativa, trova le risorse utilizzando la ricerca per parole chiave in Dataplex Universal Catalog.
  • Rilevamento automatico dei dati di Cloud Storage. Esegui la scansione dei dati nei bucket Cloud Storage per estrarre e catalogare i metadati. Il rilevamento automatico crea tabelle per dati strutturati e non strutturati.
  • Importazione dei metadati. Importa metadati su larga scala da sistemi di terze parti in Dataplex Universal Catalog. Puoi creare connettori personalizzati per estrarre i dati dalle origini dati e poi eseguire pipeline di connettività gestite che orchestrano il flusso di lavoro di importazione dei metadati.
  • Esportazione dei metadati. Esporta i metadati su larga scala da Dataplex Universal Catalog. Puoi analizzare i metadati esportati con BigQuery o integrarli in applicazioni personalizzate o workflow di elaborazione programmatica.

Selezione e gestione e controllo dei dati

Per migliorare l'individuabilità e l'usabilità dei dati, i responsabili dei dati e gli amministratori possono utilizzare BigQuery per esaminare, aggiornare e analizzare i metadati. Le funzionalità di gestione e cura dei dati di BigQuery ti aiutano a garantire che i tuoi dati siano accurati, coerenti e in linea con le norme della tua organizzazione.

BigQuery offre le seguenti funzionalità di cura e gestione dei dati:

  • Glossario aziendale. Migliora il contesto, la collaborazione e la ricerca definendo la terminologia della tua organizzazione in un glossario. Identifica i gestori dei dati per i termini e associa i termini ai campi degli asset di dati.
  • Informazioni basate sui dati. Gemini utilizza i metadati per generare domande in linguaggio naturale sulla tua tabella e le query SQL per rispondere. Questi approfondimenti sui dati ti aiutano a scoprire pattern, valutare la qualità dei dati ed eseguire analisi statistiche.
  • Profilazione dei dati. Identifica le caratteristiche statistiche comuni delle colonne nelle tabelle BigQuery per comprendere e analizzare i dati in modo più efficace.
  • Qualità dei dati. Definisci ed esegui controlli di qualità dei dati nelle tabelle di BigQuery e Cloud Storage e applica controlli dei dati regolari e continui negli ambienti BigQuery.
  • Lignaggio dei dati. Monitora il modo in cui i dati vengono trasferiti nei sistemi: da dove provengono, dove vengono inviati e a quali trasformazioni sono sottoposti. BigQuery supporta la derivazione dei dati a livello di tabella e colonna.

Passaggi successivi per la selezione e la gestione dei dati

La seguente tabella descrive i passaggi successivi che puoi intraprendere per scoprire di più sulle funzionalità di cura e gestione dei dati:

Livello di esperienza Percorso di apprendimento
Nuovi utenti cloud
Utenti cloud esperti

Sicurezza e controllo dell'accesso

La gestione dell'accesso ai dati è il processo di definizione, applicazione e monitoraggio delle regole e delle norme che regolano chi ha accesso ai dati. La gestione degli accessi garantisce che i dati siano accessibili solo a chi è autorizzato ad accedervi.

BigQuery offre le seguenti funzionalità di sicurezza e controllo dell'accesso:

  • Identity and Access Management (IAM). IAM ti consente di controllare chi ha accesso alle tue risorse BigQuery, come progetti, set di dati, tabelle e viste. Puoi concedere ruoli IAM a utenti, gruppi e service account. Questi ruoli definiscono cosa possono fare con le tue risorse.
  • Controlli di accesso a livello di colonna e controlli di accesso a livello di riga. I controlli dell'accesso a livello di colonna e riga ti consentono di limitare l'accesso a colonne e righe specifiche di una tabella, in base agli attributi utente o ai valori dei dati. Questo controllo ti consente di implementare un accesso granulare per proteggere i dati sensibili da accessi non autorizzati.
  • Gestione del trasferimento dei dati. I Controlli di servizio VPC ti consentono di creare perimetri intorno alle risorse e controllare l'accesso a queste risorse in base ai criteri della tua organizzazione. Trusted Cloud
  • Audit log. Gli audit log forniscono un record dettagliato dell&#39attività utentei e degli eventi di sistema nella tua organizzazione. Questi log ti aiutano a applicare le norme di governance dei dati e a identificare potenziali rischi per la sicurezza.
  • Mascheramento dei dati. Il mascheramento dei dati consente di oscurare i dati sensibili in una tabella, consentendo comunque agli utenti autorizzati di accedere ai dati circostanti. Il mascheramento dei dati può anche oscurare i dati che corrispondono a pattern di dati sensibili, proteggendo dalla divulgazione accidentale dei dati.
  • Crittografia. BigQuery cripta automaticamente tutti i dati inattivi e in transito, consentendoti di personalizzare le impostazioni di crittografia per soddisfare i tuoi requisiti specifici.

Passaggi successivi per la sicurezza e controllo dell'accesso

La seguente tabella descrive i passaggi successivi che puoi intraprendere per scoprire di più sulle funzionalità di controllo dell'accesso#39;accesso:

Livello di esperienza Percorso di apprendimento
Nuovi utenti cloud
Utenti cloud esperti

Dati e approfondimenti condivisi

BigQuery ti consente di condividere dati e approfondimenti su larga scala all'interno e tra i confini organizzativi. Dispone di un solido framework di sicurezza e privacy tramite una piattaforma di scambio di dati integrata. Utilizzando BigQuery sharing, puoi scoprire, accedere e utilizzare una libreria di dati curata da un'ampia selezione di fornitori di dati.

BigQuery offre le seguenti funzionalità di condivisione:

  • Condividi più di semplici dati. Puoi condividere un'ampia gamma di asset di dati e AI, come set di dati, tabelle, viste, stream in tempo reale di BigQuery con argomenti Pub/Sub, procedure archiviate SQL e modelli BigQuery ML.
  • Accedere ai set di dati di Google. Migliora le tue iniziative di analisi e ML con i set di dati Google provenienti da Tendenze di ricerca, modelli DeepMind WeatherNext, Google Maps Platform, Google Earth Engine e altro ancora.
  • Integrare i principi di governance dei dati. I proprietari dei dati mantengono il controllo sui propri dati e hanno la possibilità di definire e configurare regole o norme per limitare l'accesso e l'utilizzo.
  • Condivisione di dati in tempo reale e senza copia. I dati vengono condivisi in loco senza necessità di integrazione, spostamento o replica, garantendo che l'analisi si basi sulle informazioni più recenti. I set di dati collegati creati sono un puntatore live all'asset condiviso.
  • Migliora la postura di sicurezza. Puoi utilizzare i controlli dell'accesso per ridurre l'accesso al provisioning eccessivo, incluso il supporto integrato per Controlli di servizio VPC.
  • Aumenta la visibilità con le metriche di utilizzo del fornitore. Gli editori di dati possono visualizzare e monitorare l'utilizzo delle risorse condivise, ad esempio il numero di job eseguiti, i byte totali scansionati e gli abbonati per ogni organizzazione.
  • Collabora sui dati sensibili con le data clean room. Le data clean room forniscono un ambiente con maggiore sicurezza in cui più parti possono condividere, unire e analizzare i propri asset di dati senza spostare o rivelare i dati sottostanti.
  • Basato su BigQuery. Puoi sfruttare la scalabilità e le enormi capacità di elaborazione di BigQuery, consentendo collaborazioni su larga scala.

Passaggi successivi per la condivisione

La seguente tabella descrive i passaggi successivi che puoi intraprendere per scoprire di più sulle funzionalità di condivisione:

Livello di esperienza Percorso di apprendimento
Nuovi utenti cloud
  • Scopri come creare e gestire scambi e schede per iniziare a condividere all'interno o all'esterno della tua organizzazione.
Utenti cloud esperti

Passaggi successivi