BigQuery DataFrames-Sitzungen und ‑E/A verwalten
In diesem Dokument wird erläutert, wie Sie Sitzungen verwalten und Ein- und Ausgabevorgänge ausführen, wenn Sie BigQuery DataFrames verwenden. Sie erfahren, wie Sie Sitzungen erstellen und verwenden, mit In-Memory-Daten arbeiten und Daten aus Dateien und BigQuery-Tabellen lesen und in Dateien und BigQuery-Tabellen schreiben.
BigQuery-Sitzungen
BigQuery DataFrames verwendet ein lokales Sitzungsobjekt, um Metadaten intern zu verwalten. Jedes DataFrame
- und Series
-Objekt ist mit einer Sitzung verbunden, jede Sitzung ist mit einem Standort verbunden und jede Abfrage in einer Sitzung wird an dem Standort ausgeführt, an dem Sie die Sitzung erstellt haben. Mit dem folgenden Codebeispiel können Sie eine Sitzung manuell erstellen und zum Laden von Daten verwenden:
Sie können keine Daten aus mehreren Sitzungsinstanzen kombinieren, auch wenn Sie sie mit denselben Einstellungen initialisieren. Das folgende Codebeispiel zeigt, dass beim Versuch, Daten aus verschiedenen Sitzungsinstanzen zu kombinieren, ein Fehler auftritt:
Globale Sitzung
BigQuery DataFrames bietet eine globale Standardsitzung, auf die Sie mit der Methode bigframes.pandas.get_global_session()
zugreifen können. In Colab müssen Sie eine Projekt-ID für das Attribut bigframes.pandas.options.bigquery.project
angeben, bevor Sie es verwenden können. Sie können auch einen Standort mit dem Attribut bigframes.pandas.options.bigquery.location
festlegen. Standardmäßig wird die Multi-Region US
verwendet.
Das folgende Codebeispiel zeigt, wie Sie Optionen für die globale Sitzung festlegen:
Wenn Sie den Standort oder das Projekt der globalen Sitzung zurücksetzen möchten, schließen Sie die aktuelle Sitzung mit der Methode bigframes.pandas.close_session()
.
Viele integrierte Funktionen von BigQuery DataFrames verwenden standardmäßig die globale Sitzung. Das folgende Codebeispiel zeigt, wie integrierte Funktionen die globale Sitzung verwenden:
In-Memory-Daten
Sie können Dataframes
- und Series
-Objekte mit integrierten Python- oder NumPy-Datenstrukturen erstellen, ähnlich wie Sie Objekte mit pandas erstellen. Verwenden Sie das folgende Codebeispiel, um ein Objekt zu erstellen:
Verwenden Sie das folgende Codebeispiel, um pandas
-Objekte mit der Methode oder den Konstruktoren read_pandas()
in DataFrames
-Objekte zu konvertieren:
Wenn Sie die Methode to_pandas()
verwenden möchten, um BigQuery DataFrames-Daten in den Arbeitsspeicher zu laden, verwenden Sie das folgende Codebeispiel:
Kostenschätzung mit dem Parameter dry_run
Das Laden großer Datenmengen kann viel Zeit und Ressourcen in Anspruch nehmen. Um zu sehen, wie viele Daten verarbeitet werden, verwenden Sie den Parameter dry_run=True
im Aufruf to_pandas()
. Verwenden Sie das folgende Codebeispiel, um einen Probelauf durchzuführen:
Dateien lesen und schreiben
Sie können Daten aus kompatiblen Dateien in ein BigQuery DataFrames-DataFrame einlesen. Diese Dateien können sich auf Ihrem lokalen Computer oder in Cloud Storage befinden. Verwenden Sie das folgende Codebeispiel, um Daten aus einer CSV-Datei zu lesen:
Wenn Sie Ihre BigQuery DataFrames mit der Methode to_csv
in lokalen Dateien oder Cloud Storage-Dateien speichern möchten, verwenden Sie das folgende Codebeispiel:
BigQuery-Tabellen lesen und schreiben
Wenn Sie BigQuery DataFrames mit BigQuery-Tabellenreferenzen und der Funktion bigframes.pandas.read_gbq
erstellen möchten, verwenden Sie das folgende Codebeispiel:
Wenn Sie einen SQL-String mit der Funktion read_gbq()
verwenden möchten, um Daten in BigQuery DataFrames einzulesen, verwenden Sie das folgende Codebeispiel:
Wenn Sie Ihr DataFrame
-Objekt in einer BigQuery-Tabelle speichern möchten, verwenden Sie die Methode to_gbq()
Ihres DataFrame
-Objekts. Das folgende Codebeispiel zeigt, wie das geht:
Nächste Schritte
- BigQuery DataFrames verwenden
- Mit Datentypen in BigQuery DataFrames arbeiten
- Diagramme mit BigQuery DataFrames visualisieren
- Referenz zur BigQuery DataFrames API