Installare BigQuery DataFrames

BigQuery DataFrames fornisce un'API Python DataFrame e di machine learning (ML) basata sul motore BigQuery. BigQuery DataFrames è un pacchetto open source.

Installare BigQuery DataFrames

Per installare l'ultima versione di BigQuery DataFrames, esegui pip install --upgrade bigframes.

Librerie disponibili

BigQuery DataFrames fornisce tre librerie:

  • bigframes.pandas fornisce un' API pandas che puoi utilizzare per analizzare e manipolare i dati in BigQuery. Molti carichi di lavoro possono essere migrati da pandas a bigframes modificando solo alcuni import. L'API bigframes.pandas è scalabile per supportare l'elaborazione di terabyte di dati BigQuery e utilizza il motore di query BigQuery per eseguire i calcoli.
  • bigframes.bigquery fornisce molte funzioni SQL di BigQuery che potrebbero non avere un equivalente pandas.
  • bigframes.ml fornisce un'API simile all'API scikit-learn per ML. Le funzionalità di ML in BigQuery DataFrames consentono di pre-elaborare i dati e poi di addestrare i modelli su questi dati. Puoi anche concatenare queste azioni per creare pipeline di dati.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per completare le attività descritte in questo documento, chiedi all'amministratore di concederti i seguenti ruoli IAM per il progetto:

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Quando esegui l'autenticazione dell'utente finale in un ambiente interattivo come un notebook, Python REPL o la riga di comando, BigQuery DataFrames richiede l'autenticazione, se necessario. In caso contrario, scopri come configurare le credenziali predefinite dell'applicazione per vari ambienti.

Configurare le opzioni di installazione

Dopo aver installato BigQuery DataFrames, puoi specificare le seguenti opzioni.

Località e progetto

Devi specificare la località e il progetto in cui vuoi utilizzare BigQuery DataFrames.

Puoi definire la località e il progetto nel notebook nel seguente modo:

import bigframes.pandas as bpd

PROJECT_ID = "bigframes-dev"  # @param {type:"string"}
REGION = "US"  # @param {type:"string"}

# Set BigQuery DataFrames options
# Note: The project option is not required in all environments.
# On BigQuery Studio, the project ID is automatically detected.
bpd.options.bigquery.project = PROJECT_ID

# Note: The location option is not required.
# It defaults to the location of the first table or query
# passed to read_gbq(). For APIs where a location can't be
# auto-detected, the location defaults to the "US" location.
bpd.options.bigquery.location = REGION

Posizione di elaborazione dei dati

BigQuery DataFrames è progettato per la scalabilità, che ottiene mantenendo i dati e l'elaborazione sul servizio BigQuery. Tuttavia, puoi importare i dati nella memoria della macchina client chiamando .to_pandas() su un oggetto DataFrame o Series. Se scegli di farlo, si applica la limitazione di memoria della macchina client.

Passaggi successivi