Daten mit BigQuery DataFrames bearbeiten
In diesem Dokument werden die Funktionen zur Datenbearbeitung beschrieben, die mit BigQuery DataFrames verfügbar sind. Die beschriebenen Funktionen finden Sie in der bigframes.bigquery-Bibliothek.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Ausführen der Aufgaben in diesem Dokument benötigen:
-
BigQuery-Jobnutzer (
roles/bigquery.jobUser) -
BigQuery Read Session-Nutzer (
roles/bigquery.readSessionUser) -
BigQuery DataFrames in einem BigQuery-Notebook verwenden:
-
BigQuery-Nutzer (
roles/bigquery.user) -
Notebook Runtime User (
roles/aiplatform.notebookRuntimeUser) -
Code Creator (
roles/dataform.codeCreator)
-
BigQuery-Nutzer (
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Wenn Sie die Endnutzerauthentifizierung in einer interaktiven Umgebung wie einem Notebook, der Python-REPL oder der Befehlszeile ausführen, fordert BigQuery DataFrames bei Bedarf zur Authentifizierung auf. Andernfalls lesen Sie in diesem Artikel zum Einrichten von Standardanmeldedaten für Anwendungen für verschiedene Umgebungen.
pandas API
Ein bemerkenswertes Feature von BigQuery DataFrames ist, dass die
bigframes.pandas API
so konzipiert ist, dass sie APIs in der pandas-Bibliothek ähnelt. So können Sie vertraute Syntaxmuster für Datenbearbeitungsaufgaben verwenden. Über die BigQuery DataFrames API definierte Vorgänge werden serverseitig ausgeführt und direkt auf Daten angewendet, die in BigQuery gespeichert sind. Datasets müssen also nicht aus BigQuery übertragen werden.
Informationen dazu, welche pandas APIs von BigQuery DataFrames unterstützt werden, finden Sie unter Unterstützte pandas APIs.
Daten prüfen und bearbeiten
Sie können die bigframes.pandas API für Datenprüfungs- und Berechnungsvorgänge verwenden. Im folgenden Codebeispiel wird die bigframes.pandas
Bibliothek verwendet, um die Spalte body_mass_g zu prüfen, den Mittelwert von body_mass zu berechnen und
den Mittelwert von body_mass nach species zu berechnen:
BigQuery-Bibliothek
Die BigQuery-Bibliothek bietet BigQuery-SQL-Funktionen, für die es möglicherweise kein pandas-Äquivalent gibt. In den folgenden Abschnitten finden Sie einige Beispiele.
Arraywerte verarbeiten
Mit der bigframes.bigquery.array_agg() Funktion in der
bigframes.bigquery Bibliothek können Sie Werte nach einem groupby Vorgang aggregieren:
Sie können auch die Arrayfunktionen array_length() und array_to_string() verwenden.
Ein Series-Objekt vom Typ „struct“ erstellen
Mit der Funktion bigframes.bigquery.struct() in der
bigframes.bigquery Bibliothek können Sie ein neues Series Objekt vom Typ „struct“ mit
Unterfeldern für jede Spalte in einem DataFrame erstellen:
Zeitstempel in Unix-Epochen konvertieren
Mit der bigframes.bigquery.unix_micros() Funktion in der
bigframes.bigquery Bibliothek können Sie Zeitstempel in Unix-Mikrosekunden konvertieren:
Sie können auch die Zeitfunktionen unix_seconds() und unix_millis() verwenden.
SQL-Skalarfunktion verwenden
Mit der Funktion bigframes.bigquery.sql_scalar() in der
bigframes.bigquery Bibliothek können Sie auf eine beliebige SQL-Syntax zugreifen, die einen
einspaltigen Ausdruck darstellt:
Nächste Schritte
- Informationen zu benutzerdefinierten Python-Funktionen für BigQuery DataFrames.
- BigQuery DataFrames-Code mit Gemini generieren .
- Paketdownloads von PyPI mit BigQuery DataFrames analysieren .
- BigQuery DataFrames Quellcode, Beispiel-Notebooks und Beispiele auf GitHub ansehen.
- Referenz zur BigQuery DataFrames API