Einführung in Data Governance in BigQuery

BigQuery bietet integrierte Verwaltungsfunktionen, die die Ermittlung, Verwaltung, Überwachung, Steuerung und Nutzung Ihrer Daten- und KI-Assets vereinfachen.

Administratoren, Data Stewards, Data Governance-Manager und Data Custodians können die Governance-Funktionen in BigQuery für Folgendes verwenden:

  • Daten ermitteln.
  • Daten kuratieren.
  • Metadaten erfassen und anreichern.
  • Datenqualität verwalten
  • Achten Sie darauf, dass Daten einheitlich und in Übereinstimmung mit den Organisationsrichtlinien verwendet werden.
  • Daten in großem Umfang und auf sichere Weise weitergeben

Die BigQuery-Governance-Funktionen basieren auf dem Dataplex Universal Catalog, einem zentralen Bestand aller Daten-Assets in Ihrer Organisation. Dataplex Universal Catalog enthält Geschäfts-, technische und betriebliche Metadaten für alle Ihre Daten. Mithilfe von künstlicher Intelligenz und maschinellem Lernen können Sie Beziehungen und Semantik in den Metadaten erkennen.

Mit BigLake Metastore können Sie mehrere Datenverarbeitungs-Engines verwenden, um eine einzelne Kopie von Daten mit einem einzelnen Schema abzufragen, ohne dass Daten dupliziert werden. Sie können unter anderem BigQuery, Apache Spark, Apache Flink und Apache Hive als Datenverarbeitungs-Engines verwenden. Ihre Daten können an Orten wie BigQuery-Speichertabellen, BigLake-Tabellen für Apache Iceberg in BigQuery oder externen BigLake-Tabellen gespeichert werden.

BigQuery unterstützt den gesamten Datenlebenszyklus, von der Ermittlung bis zur Nutzung von Daten. Governance-Funktionen sind auch in Dataplex Universal Catalog verfügbar.

Datenerkennung

BigQuery ermittelt Daten in der gesamten Organisation in Trusted Cloud by S3NS, unabhängig davon, ob sich die Daten in BigQuery, Spanner, Cloud SQL, Pub/Sub oder Cloud Storage befinden. Die Metadaten werden automatisch extrahiert und in Dataplex Universal Catalog gespeichert. Sie können beispielsweise Metadaten für strukturierte und unstrukturierte Daten aus Cloud Storage extrahieren und automatisch in großem Umfang abfragebereite BigLake-Tabellen erstellen. So können Sie Analysen mit einer Open-Source-Engine durchführen, ohne Daten zu duplizieren.

Sie können auch Metadaten aus Drittanbieterdatenquellen mit benutzerdefinierten Connectors extrahieren und katalogisieren.

BigQuery bietet die folgenden Funktionen zur Datenermittlung:

  • Suche Suchen Sie projekt- und organisationsübergreifend nach Daten- und KI-Ressourcen. Verwenden Sie in BigQuery in der Trusted Cloud Console die semantische Suche (Vorabversion), um mit Alltagssprache nach Ressourcen zu suchen. Alternativ können Sie Ressourcen über die Schlüsselwortsuche im Dataplex Universal Catalog finden.
  • Automatische Erkennung von Cloud Storage-Daten: Cloud Storage-Buckets nach Daten durchsuchen, um Metadaten zu extrahieren und dann zu katalogisieren. Bei der automatischen Erkennung werden Tabellen für strukturierte und unstrukturierte Daten erstellt.
  • Metadatenimport Metadaten in großem Umfang aus Drittanbietersystemen in Dataplex Universal Catalog importieren Sie können benutzerdefinierte Connectors erstellen, um Daten aus Ihren Datenquellen zu extrahieren, und dann Pipelines für verwaltete Verbindungen ausführen, die den Workflow für den Metadatenimport orchestrieren.
  • Metadatenexport: Metadaten in großem Umfang aus Dataplex Universal Catalog exportieren. Sie können die exportierten Metadaten mit BigQuery analysieren oder in benutzerdefinierte Anwendungen oder programmatische Verarbeitungsworkflows einbinden.

Kuratierung und Datenadministration

Um die Auffindbarkeit und Nutzbarkeit von Daten zu verbessern, können Datenverantwortliche und Administratoren BigQuery verwenden, um Metadaten zu prüfen, zu aktualisieren und zu analysieren. Mit den Funktionen für die Datenaufbereitung und -verwaltung von BigQuery können Sie dafür sorgen, dass Ihre Daten korrekt, konsistent und an den Richtlinien Ihrer Organisation ausgerichtet sind.

BigQuery bietet die folgenden Funktionen für die Datenaufbereitung und -verwaltung:

  • Geschäftsglossar Sie können Kontext, Zusammenarbeit und Suche verbessern, indem Sie die Terminologie Ihrer Organisation in einem Glossar definieren. Datenverantwortliche für die Begriffe identifizieren und Begriffe an Felder für Daten-Assets anhängen.
  • Data Insights: Gemini verwendet Metadaten, um Fragen in natürlicher Sprache zu Ihrer Tabelle und die SQL-Abfragen zu generieren, mit denen diese Fragen beantwortet werden. Mit diesen Data Insights können Sie Muster erkennen, die Datenqualität bewerten und statistische Analysen ausführen.
  • Datenprofilerstellung Sie können allgemeine statistische Merkmale der Spalten in BigQuery-Tabellen identifizieren, um Ihre Daten effektiver zu verstehen und zu analysieren.
  • Datenqualität: Datenqualitätsprüfungen für Tabellen in BigQuery und Cloud Storage definieren und ausführen sowie regelmäßige und fortlaufende Datenkontrollen in BigQuery-Umgebungen anwenden.
  • Data Lineage. Sie können nachvollziehen, wie sich Daten durch Ihre Systeme bewegen – woher sie kommen, wohin sie übergeben werden und welche Transformationen auf sie angewendet werden. BigQuery unterstützt die Datenherkunft auf Tabellen- und Spaltenebene.

Nächste Schritte für die Kuration und Data Stewardship

In der folgenden Tabelle werden die nächsten Schritte beschrieben, mit denen Sie mehr über die Funktionen für die Datenkuration und Data Stewardship erfahren können:

Erfahrungsstufe Lernpfad
Neue Cloud-Nutzer
  • Führen Sie einen Datenprofil-Scan durch, um Statistiken zu Ihren Daten zu erhalten, einschließlich der Limits oder Durchschnittswerte.
Erfahrene Cloud-Nutzer

Sicherheits- und Zugriffsverwaltung

Die Zugriffsverwaltung ist der Prozess des Definierens, Durchsetzens und Überwachens der Regeln und Richtlinien, die den Zugriff auf Daten steuern. Die Zugriffsverwaltung sorgt dafür, dass nur Personen auf Daten zugreifen können, die dazu berechtigt sind.

BigQuery bietet die folgenden Funktionen für Sicherheit und Zugriffssteuerung:

  • Identity and Access Management (IAM) Mit IAM können Sie steuern, wer Zugriff auf Ihre BigQuery-Ressourcen wie Projekte, Datasets, Tabellen und Ansichten hat. Sie können Nutzern, Gruppen und Dienstkonten IAM-Rollen zuweisen. Diese Rollen definieren, was sie mit Ihren Ressourcen tun können.
  • Zugriffssteuerungen auf Spaltenebene und Zugriffssteuerungen auf Zeilenebene Mit Zugriffssteuerungen auf Spalten- und Zeilenebene können Sie den Zugriff auf bestimmte Spalten und Zeilen in einer Tabelle basierend auf Nutzerattributen oder Datenwerten einschränken. Mit dieser Steuerung können Sie detaillierten Zugriff implementieren und so sensible Daten vor unbefugtem Zugriff schützen.
  • Datenübertragungsverwaltung Mit VPC Service Controls können Sie Perimeter um Trusted Cloud-Ressourcen erstellen und den Zugriff auf diese Ressourcen gemäß den Richtlinien Ihrer Organisation steuern.
  • Audit-Logs. Audit-Logs enthalten detaillierte Informationen zu Nutzeraktivitäten und Systemereignissen in Ihrer Organisation. Anhand dieser Protokolle können Sie Richtlinien zur Datenverwaltung durchsetzen und potenzielle Sicherheitsrisiken erkennen.
  • Datenmaskierung. Mit der Datenmaskierung können Sie sensible Daten in einer Tabelle verbergen und gleichzeitig autorisierten Nutzern den Zugriff auf die umgebenden Daten erlauben. Mit der Datenmaskierung können auch Daten, die sensiblen Datenmustern entsprechen, unkenntlich gemacht werden, um eine versehentliche Datenweitergabe zu verhindern.
  • Verschlüsselung. BigQuery verschlüsselt automatisch alle inaktiven und übertragenen Daten. Dabei können Sie die Verschlüsselungseinstellungen an Ihre speziellen Anforderungen anpassen.

Nächste Schritte für Sicherheit und Zugriffssteuerung

In der folgenden Tabelle werden die nächsten Schritte beschrieben, mit denen Sie mehr über die Funktionen zur Zugriffssteuerung erfahren können:

Erfahrungsstufe Lernpfad
Neue Cloud-Nutzer
Erfahrene Cloud-Nutzer
  • Wenn Sie Ihre Berechtigungen flexibler und detaillierter verwalten möchten, können Sie benutzerdefinierte Rollen erstellen, die Ihren Anforderungen entsprechen.
  • Fügen Sie Zeilen und Spaltensteuerelemente hinzu, um den Zugriff auf bestimmte Zeilen und Spalten in Ihren Tabellen zu steuern.
  • Richten Sie einen Zugriffsperimeter um Ihre Trusted Cloud-Ressourcen ein, indem Sie VPC Service Controls einrichten.
  • Fügen Sie Ihrer Tabelle Datenmaskierung auf Spaltenebene hinzu, um die Weitergabe von Informationen innerhalb Ihrer Organisation zu erleichtern, ohne sensible Daten preiszugeben.
  • Mit Sensitive Data Protection können Sie Ihre Daten auf vertrauliche und riskante Informationen wie personenidentifizierbare Informationen, Finanzdaten und Gesundheitsdaten scannen.

Freigegebene Daten und Statistiken

Mit BigQuery können Sie Daten und Statistiken in großem Umfang innerhalb und über Organisationsgrenzen hinweg freigeben. Es verfügt über ein robustes Sicherheits- und Datenschutzkonzept durch eine integrierte Datenaustauschplattform. Mit BigQuery-Freigabe können Sie eine von einer Vielzahl von Datenanbietern zusammengestellte Datenbibliothek finden, darauf zugreifen und sie nutzen.

BigQuery bietet die folgenden Freigabefunktionen:

  • Mehr als nur Daten teilen: Sie können eine Vielzahl von Daten- und KI-Assets freigeben, z. B. BigQuery-Datasets, Tabellen, Ansichten, Echtzeitstreams mit Pub/Sub-Themen, gespeicherte SQL-Prozeduren und BigQuery ML-Modelle.
  • Auf Google-Datasets zugreifen: Ergänzen Sie Ihre Analyse- und ML-Initiativen mit Google-Datasets aus Search Trends, DeepMind WeatherNext-Modellen, der Google Maps Platform, Google Earth Engine und mehr.
  • Data Governance-Grundsätze einhalten: Dateninhaber behalten die Kontrolle über ihre Daten und können Regeln oder Richtlinien definieren und konfigurieren, um den Zugriff und die Nutzung einzuschränken.
  • Live-Datenfreigabe ohne Kopieren: Daten werden direkt freigegeben, ohne dass eine Integration, Datenübertragung oder Replikation erforderlich ist. So wird sichergestellt, dass die Analyse auf den neuesten Informationen basiert. Erstellte verknüpfte Datasets sind ein Live-Pointer auf das freigegebene Asset.
  • Sicherheitsstatus verbessern: Sie können den Zugriff mit Zugriffssteuerungen einschränken, einschließlich der integrierten Unterstützung für VPC Service Controls.
  • Sichtbarkeit mit Messwerten zur Anbieterverwendung erhöhen: Datenpublisher können die Nutzung freigegebener Assets ansehen und überwachen, z. B. die Anzahl der ausgeführten Jobs, die insgesamt gescannten Byte und die Abonnenten für jede Organisation.
  • Gemeinsam an vertraulichen Daten mit Data-Clean-Rooms arbeiten: Data-Clean-Rooms bieten eine sicherheitsoptimierte Umgebung, in der mehrere Parteien ihre Daten-Assets freigeben, zusammenführen und analysieren können, ohne die zugrunde liegenden Daten zu verschieben oder weiterzugeben.
  • Basierend auf BigQuery: Sie können die Skalierbarkeit und die enormen Verarbeitungsmöglichkeiten von BigQuery nutzen, um umfangreiche Zusammenarbeiten zu ermöglichen.

Nächste Schritte für die Freigabe

In der folgenden Tabelle werden die nächsten Schritte beschrieben, mit denen Sie mehr über die Funktionen zum Teilen erfahren können:

Erfahrungsstufe Lernpfad
Neue Cloud-Nutzer
Erfahrene Cloud-Nutzer

Nächste Schritte