Gestire le sessioni e l'I/O di BigQuery DataFrames
Questo documento spiega come gestire le sessioni ed eseguire operazioni di input e output (I/O) quando utilizzi BigQuery DataFrames. Imparerai a creare e utilizzare le sessioni, a lavorare con i dati in memoria e a leggere e scrivere in file e tabelle BigQuery.
Sessioni BigQuery
BigQuery DataFrames utilizza internamente un oggetto sessione locale per gestire
i metadati. Ogni oggetto DataFrame
e Series
si connette a una sessione, ogni sessione si connette a una posizione e ogni query in una sessione viene eseguita nella posizione in cui hai creato la sessione. Utilizza il seguente
esempio di codice per creare manualmente una sessione e utilizzarla per caricare i dati:
Non puoi combinare i dati di più istanze di sessione, anche se le inizializzi con le stesse impostazioni. Il seguente esempio di codice mostra che il tentativo di combinare dati di istanze di sessione diverse causa un errore:
Sessione globale
BigQuery DataFrames fornisce una sessione globale predefinita a cui puoi accedere con il metodo bigframes.pandas.get_global_session()
. In
Colab, devi fornire un ID progetto per l'attributo
bigframes.pandas.options.bigquery.project
prima di utilizzarlo. Puoi anche impostare una località con l'attributo bigframes.pandas.options.bigquery.location
, che per impostazione predefinita è la multi-regione US
.
Il seguente esempio di codice mostra come impostare le opzioni per la sessione globale:
Per reimpostare la posizione o il progetto della sessione globale, chiudi la sessione corrente eseguendo il metodo bigframes.pandas.close_session()
.
Molte funzioni integrate di BigQuery DataFrames utilizzano la sessione globale per impostazione predefinita. Il seguente esempio di codice mostra come le funzioni integrate utilizzano la sessione globale:
Dati in memoria
Puoi creare oggetti Dataframes
e Series
con strutture di dati Python o NumPy integrate, in modo simile a come crei oggetti con pandas. Utilizza il
seguente esempio di codice per creare un oggetto:
Per convertire gli oggetti pandas
in oggetti DataFrames
utilizzando il metodo read_pandas()
o i costruttori, utilizza il seguente esempio di codice:
Per utilizzare il metodo to_pandas()
per caricare i dati di BigQuery DataFrames nella
memoria, utilizza il seguente esempio di codice:
Stima dei costi con il parametro dry_run
Il caricamento di una grande quantità di dati può richiedere molto tempo e risorse. Per vedere la quantità di dati in fase di elaborazione, utilizza il parametro dry_run=True
nella chiamata to_pandas()
. Utilizza il seguente esempio di codice per eseguire un dry run:
Lettura e scrittura nei file
Puoi leggere i dati da file compatibili in un BigQuery DataFrames. Questi file possono trovarsi sulla tua macchina locale o in Cloud Storage. Utilizza il seguente esempio di codice per leggere i dati da un file CSV:
Per salvare i DataFrame BigQuery in file locali o file Cloud Storage
utilizzando il metodo to_csv
, utilizza il seguente esempio di codice:
Leggere e scrivere tabelle BigQuery
Per creare BigQuery DataFrames utilizzando i riferimenti
alle tabelle BigQuery e la funzione bigframes.pandas.read_gbq
, utilizza il seguente codice
di esempio:
Per utilizzare una stringa SQL con la funzione read_gbq()
per leggere i dati in BigQuery DataFrames, utilizza il seguente esempio di codice:
Per salvare l'oggetto DataFrame
in una tabella BigQuery, utilizza il metodo
to_gbq()
dell'oggetto DataFrame
. Il seguente esempio di codice mostra
come farlo:
Passaggi successivi
- Scopri come utilizzare BigQuery DataFrames.
- Scopri come utilizzare i tipi di dati in BigQuery DataFrames.
- Scopri come visualizzare i grafici utilizzando BigQuery DataFrames.
- Esplora il riferimento API BigQuery DataFrames.