Installare BigQuery DataFrames
BigQuery DataFrames fornisce un'API Python DataFrame e di machine learning (ML) basata sul motore BigQuery. BigQuery DataFrames è un pacchetto open source.
Installare BigQuery DataFrames
Per installare l'ultima versione di BigQuery DataFrames, esegui pip install
--upgrade bigframes.
Librerie disponibili
BigQuery DataFrames fornisce tre librerie:
bigframes.pandasfornisce un' API pandas che puoi utilizzare per analizzare e manipolare i dati in BigQuery. Molti carichi di lavoro possono essere migrati da pandas a bigframes modificando solo alcuni import. L'APIbigframes.pandasè scalabile per supportare l'elaborazione di terabyte di dati BigQuery e utilizza il motore di query BigQuery per eseguire i calcoli.bigframes.bigqueryfornisce molte funzioni SQL di BigQuery che potrebbero non avere un equivalente pandas.bigframes.mlfornisce un'API simile all'API scikit-learn per ML. Le funzionalità di ML in BigQuery DataFrames consentono di pre-elaborare i dati e poi di addestrare i modelli su questi dati. Puoi anche concatenare queste azioni per creare pipeline di dati.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per completare le attività descritte in questo documento, chiedi all'amministratore di concederti i seguenti ruoli IAM per il progetto:
-
Utente job BigQuery (
roles/bigquery.jobUser) -
Utente sessione di lettura BigQuery (
roles/bigquery.readSessionUser) -
Utilizzare BigQuery DataFrames in un notebook BigQuery:
-
Utente BigQuery (
roles/bigquery.user) -
Utente runtime blocco note (
roles/aiplatform.notebookRuntimeUser) -
Creatore di codice (
roles/dataform.codeCreator)
-
Utente BigQuery (
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Quando esegui l'autenticazione dell'utente finale in un ambiente interattivo come un notebook, Python REPL o la riga di comando, BigQuery DataFrames richiede l'autenticazione, se necessario. In caso contrario, scopri come configurare le credenziali predefinite dell'applicazione per vari ambienti.
Configurare le opzioni di installazione
Dopo aver installato BigQuery DataFrames, puoi specificare le seguenti opzioni.
Località e progetto
Devi specificare la località e il progetto in cui vuoi utilizzare BigQuery DataFrames.
Puoi definire la località e il progetto nel notebook nel seguente modo:
Posizione di elaborazione dei dati
BigQuery DataFrames è progettato per la scalabilità, che ottiene mantenendo i dati e l'elaborazione sul servizio BigQuery. Tuttavia, puoi importare i dati nella memoria della macchina client chiamando .to_pandas() su un oggetto DataFrame o Series. Se scegli di farlo, si applica la limitazione di memoria della macchina client.
Passaggi successivi
- Scopri come manipolare i dati con BigQuery DataFrames.
- Scopri come generare codice BigQuery DataFrames con Gemini.
- Scopri come analizzare i download dei pacchetti da PyPI con BigQuery DataFrames.
- Visualizza il codice sorgente, i notebook di esempio e gli esempi di BigQuery DataFrames su GitHub.
- Esplora il riferimento API BigQuery DataFrames.