Einführung in die BigQuery-Datenvorbereitung
In diesem Dokument wird die KI-basierte Datenvorbereitung in BigQuery beschrieben. Datenvorbereitungen sind BigQuery-Ressourcen, die Gemini in BigQuery verwenden, um Ihre Daten zu analysieren und intelligente Vorschläge zum Bereinigen, Transformieren und Anreichern zu machen. Sie können den Zeitaufwand und den Aufwand für manuelle Datenaufbereitungsaufgaben erheblich reduzieren. Die Planung der Datenvorbereitung erfolgt über Dataform.
Vorteile
- Mit kontextbezogenen, von Gemini generierten Transformationsvorschlägen können Sie den Zeitaufwand für die Entwicklung von Datenpipelines reduzieren.
- Sie können die generierten Ergebnisse in einer Vorschau prüfen und erhalten Vorschläge für die Bereinigung und Anreicherung der Datenqualität mit automatischer Schemazuordnung.
- Mit Dataform können Sie einen CI/CD-Prozess (Continuous Integration, Continuous Development) verwenden, der die teamübergreifende Zusammenarbeit für Code-Reviews und die Quellcodeverwaltung unterstützt.
Einstiegspunkte für die Datenvorbereitung
Sie können Datenaufbereitungen auf der Seite BigQuery Studio erstellen und verwalten (siehe Datenaufbereitungseditor in BigQuery öffnen).
Wenn Sie eine Tabelle in der BigQuery-Datenaufbereitung öffnen, wird ein BigQuery-Job mit Ihren Anmeldedaten ausgeführt. Bei der Ausführung werden Beispielzeilen aus der ausgewählten Tabelle erstellt und die Ergebnisse in eine temporäre Tabelle im selben Projekt geschrieben. Gemini verwendet die Beispieldaten und das Schema, um Vorschläge für die Datenaufbereitung zu generieren, die im Editor für die Datenaufbereitung angezeigt werden.
Ansichten im Editor für die Datenvorbereitung
Datenvorbereitungen werden als Tabs auf der Seite BigQuery angezeigt. Jeder Tab enthält eine Reihe von Untertabs oder Ansichten für die Datenvorbereitung, in denen Sie Ihre Datenvorbereitungen entwerfen und verwalten.
Datenansicht
Wenn Sie eine neue Datenaufbereitung erstellen, wird ein Tab mit dem Datenaufbereitungseditor geöffnet, auf dem die Datenansicht mit einer repräsentativen Stichprobe der Tabelle angezeigt wird. Bei vorhandenen Datenaufbereitungen können Sie zur Datenansicht wechseln, indem Sie in der Grafansicht Ihrer Datenaufbereitungspipeline auf einen Knoten klicken.
In der Datenansicht haben Sie folgende Möglichkeiten:
- Mit Daten interagieren, um Schritte zur Datenaufbereitung zu erstellen
- Vorschläge von Gemini anwenden
- Sie können die Qualität der Gemini-Vorschläge verbessern, indem Sie Beispielwerte in die Zellen eingeben.
Über jeder Spalte in der Tabelle wird ein statistisches Profil (ein Histogramm) mit der Anzahl der Top-Werte der jeweiligen Spalte in den Vorschauzeilen angezeigt.
Diagrammansicht
Die Diagrammansicht bietet eine visuelle Übersicht über die Datenvorbereitung. Er wird als Tab auf der Seite BigQuery in der Console angezeigt, wenn Sie eine Datenaufbereitung öffnen. Im Diagramm werden Knoten für alle Schritte in Ihrer Datenaufbereitungspipeline angezeigt. Sie können einen Knoten im Diagramm auswählen, um die zugehörigen Datenvorbereitungsschritte zu konfigurieren.
Schemaansicht
In der Schemadarstellung für die Datenaufbereitung wird das aktuelle Schema des aktiven Datenaufbereitungsschritts angezeigt. Das angezeigte Schema entspricht den Spalten in der Datenansicht.
In der Schemaansicht können Sie spezielle Schemavorgänge ausführen, z. B. Spalten entfernen. Dadurch werden auch Schritte in der Liste Angewendete Schritte erstellt.
Vorschläge von Gemini
Gemini bietet kontextbezogene Vorschläge für die folgenden Aufgaben zur Datenvorbereitung:
- Transformationen und Regeln für Datenqualität anwenden
- Daten standardisieren und anreichern
- Schemazuordnung automatisieren
Jeder Vorschlag wird im Editor für die Datenaufbereitung auf einer Karte in der Vorschlagsliste angezeigt. Die Karte enthält die folgenden Informationen:
- Die übergeordnete Kategorie des Schritts, z. B. Zeilen beibehalten oder Transformation
- Eine Beschreibung des Schritts, z. B. Zeilen beibehalten, wenn
COLUMN_NAME
nichtNULL
ist - Der entsprechende SQL-Ausdruck, der zum Ausführen des Schritts verwendet wird
Sie können sich eine Vorschau der Vorschlagskarte ansehen, sie bearbeiten oder anwenden oder den Vorschlag optimieren. Sie können auch manuell Schritte hinzufügen. Weitere Informationen finden Sie unter Daten mit Gemini vorbereiten.
Um die Vorschläge von Gemini zu optimieren, geben Sie ein Beispiel dafür, was in einer Spalte geändert werden soll.
Stichprobenerhebung
In BigQuery wird Data Sampling verwendet, um eine Vorschau auf die Datenaufbereitung zu geben. Sie können die Stichprobe in der Datenansicht für jeden Knoten aufrufen.
Wenn Sie BigQuery-Standardtabellen als Quelle hinzufügen, werden die Daten mit einer BigQuery-TABLESAMPLE
-Funktion vorbereitet. Mit dieser Funktion wird eine Stichprobe mit 10.000 Datensätzen erstellt.
Wenn Sie eine Ansicht oder eine externe Tabelle als Quelle hinzufügen, werden die ersten 1 Million Datensätze gelesen. Aus diesen Datensätzen wählt das System eine repräsentative Stichprobe von 10.000 Datensätzen aus.
Die Daten in der Stichprobe werden nicht automatisch aktualisiert. Beispieltabelle werden als im Cache gespeicherte Abfrageergebnisse gespeichert und laufen nach etwa 24 Stunden ab. Informationen zum manuellen Aktualisieren der Beispieltabellen finden Sie unter Beispiele für die Datenaufbereitung aktualisieren.
Schreibmodus
Um Kosten und Verarbeitungszeit zu optimieren, können Sie die Einstellungen für den Schreibmodus ändern, um neue Daten aus der Quelle inkrementell zu verarbeiten. Wenn Sie beispielsweise eine Tabelle in BigQuery haben, in die täglich Datensätze eingefügt werden, und ein Looker-Dashboard, das die geänderten Daten widerspiegeln muss, können Sie die BigQuery-Datenaufbereitung so planen, dass die neuen Datensätze inkrementell aus der Quelltabelle gelesen und in die Zieltabelle übertragen werden.
Informationen zum Konfigurieren der Art und Weise, wie die Datenaufbereitung in eine Zieltabelle geschrieben wird, finden Sie unter Datenaufbereitung durch inkrementelle Verarbeitung von Daten optimieren.
Die folgenden Schreibmodi werden unterstützt:
Option für den Schreibmodus | Beschreibung |
---|---|
Vollständige Aktualisierung | Führt die Datenvorbereitungsschritte für alle Quelldaten aus und erstellt dann die Zieltabelle vollständig neu. Die Tabelle wird neu erstellt, nicht gekürzt. Der vollständige Aktualisierungsmodus ist der Standardmodus beim Schreiben in eine Zieltabelle. |
Anhängen | Fügt alle Daten aus der Datenaufbereitung als zusätzliche Zeilen in die Zieltabelle ein. |
Inkrementell | Nur die neuen oder, je nach Auswahl der inkrementellen Spalte, geänderten Daten werden in die Zieltabelle eingefügt. Je nachdem, welche inkrementelle Spalte Sie auswählen, wird bei der Datenaufbereitung der optimale Mechanismus zur Erkennung von Änderungsdatensätzen ausgewählt. Für numerische und Datums-/Uhrzeit-Datentypen werden die Maximalwerte und für kategorische Daten die eindeutigen Werte ausgewählt. Bei „Maximum“ werden nur Datensätze eingefügt, in denen der angegebene Spaltenwert größer als der Höchstwert für dieselbe Spalte in der Zieltabelle ist. Bei „Eindeutige Einfügungen“ werden nur Datensätze eingefügt, in denen die angegebenen Spaltenwerte nicht in den vorhandenen Werten für dieselbe Spalte in der Zieltabelle vorhanden sind. |
Unterstützte Schritte zur Datenvorbereitung
BigQuery unterstützt die folgenden Arten von Datenaufbereitungsschritten:
Schritttyp | Beschreibung |
---|---|
Quelle | Fügt eine Quelle hinzu, wenn Sie eine BigQuery-Tabelle zum Lesen auswählen oder einen Join-Schritt hinzufügen. |
Transformation | Bereinigt und transformiert Daten mithilfe eines SQL-Ausdrucks. Sie erhalten Vorschlagskarten für die folgenden Begriffe:
Sie können auch beliebige gültige BigQuery-SQL-Ausdrücke in manuellen Transformationsschritten verwenden. Beispiel:
Weitere Informationen finden Sie unter Transformation hinzufügen. |
Filter | Entfernt Zeilen mithilfe der WHERE -Klauselsyntax. Wenn Sie einen Filterschritt hinzufügen, können Sie ihn in einen Validierungsschritt umwandeln.
Weitere Informationen finden Sie unter Zeilen filtern. |
Validierung | Sendet Zeilen, die die Kriterien der Validierungsregel nicht erfüllen, an eine Fehlertabelle. Wenn Daten die Validierungsregel nicht erfüllen und keine Fehlertabelle konfiguriert ist, schlägt die Datenvorbereitung während der Ausführung fehl.
Weitere Informationen finden Sie unter Fehlertabelle konfigurieren und Validierungsregel hinzufügen. |
Beitreten | Führt Werte aus zwei Quellen zusammen. Tabellen müssen sich am selben Standort befinden.
Die Spalten für den Join-Schlüssel müssen denselben Datentyp haben. Bei der Datenaufbereitung werden die folgenden Join-Vorgänge unterstützt:
Weitere Informationen finden Sie unter Join-Vorgang hinzufügen. |
Ziel | Definiert ein Ziel für die Ausgabe von Datenvorbereitungsschritten. Wenn Sie eine Zieltabelle eingeben, die nicht vorhanden ist, wird bei der Datenvorbereitung eine neue Tabelle mit den aktuellen Schemainformationen erstellt. Weitere Informationen finden Sie unter Zieltabellen hinzufügen oder ändern. |
Spalten löschen | Löscht Spalten aus dem Schema. Sie führen diesen Schritt in der Schemansicht aus.
Weitere Informationen finden Sie unter Spalte löschen. |
Ausführungen der Datenvorbereitung planen
Erstellen Sie einen Zeitplan, um die Datenaufbereitungsschritte auszuführen und die vorbereiteten Daten in die Zieltabelle zu laden. Sie können die Datenvorbereitung über den Editor für die Datenvorbereitung planen und über die Seite Planung in BigQuery verwalten. Weitere Informationen finden Sie unter Datenvorbereitung planen.
Pipelines mit Datenvorbereitungsaufgaben erstellen
Sie können BigQuery-Pipelines erstellen, die aus Aufgaben zur Datenvorbereitung, SQL-Abfrage und Notebooks bestehen. Anschließend können Sie diese Pipelines nach Zeitplan ausführen. Weitere Informationen finden Sie unter Einführung in BigQuery-Pipelines.
Zugriff steuern
Sie können den Zugriff auf Datenaufbereitungen mit IAM-Rollen (Identity and Access Management), Verschlüsselung mit BigQuery- und Dataform-Cloud KMS-Schlüsseln und VPC Service Controls steuern.
IAM-Rollen und -Berechtigungen
Nutzer, die die Daten vorbereiten, und die Dataform-Dienstkonten, mit denen die Jobs ausgeführt werden, benötigen IAM-Berechtigungen. Weitere Informationen finden Sie unter Erforderliche Rollen und Gemini für BigQuery einrichten.
Verschlüsselung mit Cloud KMS-Schlüsseln
Daten auf Dataset- oder Projektebene mit den standardmäßigen vom Kunden verwalteten Cloud KMS-Schlüsseln in BigQuery verschlüsseln Weitere Informationen finden Sie unter Standardschlüssel für ein Dataset festlegen und Standardschlüssel für ein Projekt festlegen.
Sie können Pipelinecode standardmäßig auf Projektebene mit einem Dataform Cloud KMS-Schlüssel verschlüsseln.
VPC Service Controls-Perimeter
Wenn Sie VPC Service Controls verwenden, müssen Sie den Perimeter so konfigurieren, dass Dataform und BigQuery geschützt sind. Weitere Informationen finden Sie unter den VPC Service Controls-Einschränkungen für BigQuery und Dataform.
Beschränkungen
Die Datenaufbereitung ist mit den folgenden Einschränkungen verfügbar:
- Alle BigQuery-Quell- und ‑Ziel-Datasets für die Datenaufbereitung müssen sich am selben Standort befinden. Weitere Informationen finden Sie unter Standorte.
- Während der Bearbeitung von Pipelines werden Daten und Interaktionen zur Verarbeitung an ein Gemini-Rechenzentrum gesendet. Weitere Informationen finden Sie unter Standorte.
- Gemini in BigQuery wird von Assured Workloads nicht unterstützt.
- In BigQuery-Datenvorbereitungen können keine Versionen der Datenvorbereitung angezeigt, verglichen oder wiederhergestellt werden.
- Antworten von Gemini basieren auf einer Stichprobe des Datasets, das Sie beim Entwerfen Ihrer Datenaufbereitungspipeline bereitstellen. Weitere Informationen finden Sie unter So verwendet Gemini für Trusted Cloud Ihre Daten und in den Nutzungsbedingungen für das Trusted Tester-Programm für Gemini für Trusted Cloud .
- Für die BigQuery-Datenvorbereitung gibt es keine eigene API. Informationen zu den erforderlichen APIs finden Sie unter Gemini in BigQuery einrichten.
Standorte
Sie können die Datenvorbereitung an jedem unterstützten BigQuery-Standort verwenden. Ihre Datenverarbeitungsjobs werden am Standort Ihrer Quelldatasets ausgeführt und gespeichert. Wenn ein Repository-Standort angegeben ist, muss er mit dem Standort der Quelldatasets übereinstimmen. Die Speicherregion für den Code zur Datenaufbereitung kann sich von der Region für die Jobausführung unterscheiden.
Für alle Code-Assets in BigQuery Studio wird dieselbe Standardregion verwendet. So legen Sie die Standardregion für Code-Assets fest:
Rufen Sie die Seite BigQuery auf.
Suchen Sie im Bereich Explorer nach dem Projekt, in dem Sie Code-Assets aktiviert haben.
Klicken Sie neben dem Projekt auf
Aktionen ansehen und dann auf Meine Standardregion für Code ändern.Wählen Sie unter Region die Region aus, die Sie für Code-Assets verwenden möchten.
Klicken Sie auf Auswählen.
Eine Liste der Regionen, in denen BigQuery Studio verfügbar ist, finden Sie unter BigQuery Studio-Standorte.
Gemini in BigQuery ist weltweit verfügbar. Sie können die Datenverarbeitung von Gemini also nicht auf eine bestimmte Region beschränken, wenn Sie Ihre Datenaufbereitung entwerfen. Die BigQuery-Datenverarbeitung während des Entwurfs und der Ausführung erfolgt jedoch immer am Standort Ihrer Quelldatasets. Weitere Informationen zu den Standorten, an denen Gemini in BigQuery Daten verarbeitet, finden Sie unter Gemini-Bereitstellungsstandorte.
Preise
Für die Datenvorbereitung und die Erstellung von Datenvorschau-Beispielen werden BigQuery-Ressourcen verwendet, die zu den in der BigQuery-Preisübersicht angegebenen Preisen berechnet werden.
Die Datenvorbereitung ist in den Preisen für Gemini in BigQuery enthalten. Die BigQuery-Datenvorbereitung kann während der Vorschauphase ohne zusätzliche Kosten verwendet werden. Weitere Informationen finden Sie unter Gemini in BigQuery einrichten.
Kontingente
Weitere Informationen finden Sie unter Kontingente für Gemini in BigQuery.
Nächste Schritte
- Informationen zum Vorbereiten von Daten mit Gemini in BigQuery
- Datenvorbereitung manuell oder nach Zeitplan ausführen