Manipular dados com o BigQuery DataFrames
Este documento descreve os recursos de manipulação de dados disponíveis no BigQuery DataFrames. As funções descritas estão na biblioteca bigframes.bigquery.
Funções exigidas
Para receber as permissões que você precisa para concluir as tarefas neste documento, peça ao administrador para conceder a você os seguintes papéis do IAM no seu projeto:
-
Usuário de jobs do BigQuery (
roles/bigquery.jobUser) -
Usuário de sessão de leitura do BigQuery (
roles/bigquery.readSessionUser) -
Usar o BigQuery DataFrames em um notebook do BigQuery:
-
Usuário do BigQuery (
roles/bigquery.user) -
Usuário do ambiente de execução do notebook (
roles/aiplatform.notebookRuntimeUser) -
Criador de código (
roles/dataform.codeCreator)
-
Usuário do BigQuery (
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando personalizados papéis ou outros predefinidos papéis.
Quando você executa a autenticação de usuário final em um ambiente interativo, como um notebook, REPL do Python ou a linha de comando, o BigQuery DataFrames solicita autenticação, se necessário. Caso contrário, consulte como configurar o Application Default Credentials para vários ambientes.
API pandas
Um recurso notável do BigQuery DataFrames é que a
bigframes.pandas API
foi projetada para ser semelhante às APIs na biblioteca pandas. Esse design permite que você use padrões de sintaxe familiares para tarefas de manipulação de dados. As operações definidas pela API BigQuery DataFrames são executadas do lado do servidor, operando diretamente nos dados armazenados no BigQuery e eliminando a necessidade de transferir conjuntos de dados do BigQuery.
Para verificar quais APIs pandas são compatíveis com o BigQuery DataFrames, consulte APIs pandas compatíveis.
Inspecionar e manipular dados
É possível usar a API bigframes.pandas para realizar operações de inspeção e cálculo de dados. O exemplo de código a seguir usa a bigframes.pandas
biblioteca para inspecionar a coluna body_mass_g, calcular a média body_mass e
calcular a média body_mass por species:
Biblioteca do BigQuery
A biblioteca do BigQuery fornece funções SQL do BigQuery que podem não ter um equivalente pandas. As seções a seguir apresentam alguns exemplos.
Processar valores de matriz
É possível usar a função bigframes.bigquery.array_agg() na
bigframes.bigquery biblioteca para agregar valores após uma groupby operação:
Também é possível usar as funções de matriz array_length() e array_to_string().
Criar um objeto Series de struct
É possível usar a função bigframes.bigquery.struct() na
bigframes.bigquery biblioteca para criar um novo objeto Series de struct com
subcampos para cada coluna em um DataFrame:
Converter carimbos de data/hora em épocas Unix
É possível usar a função bigframes.bigquery.unix_micros() na
bigframes.bigquery biblioteca para converter carimbos de data/hora em microssegundos Unix:
Também é possível usar as funções de tempo unix_seconds() e unix_millis().
Usar a função escalar SQL
É possível usar a função bigframes.bigquery.sql_scalar() na
bigframes.bigquery biblioteca para acessar a sintaxe SQL arbitrária que representa uma
expressão de coluna única:
A seguir
- Saiba mais sobre as funções personalizadas do Python para o BigQuery DataFrames.
- Saiba como gerar código do BigQuery DataFrames com o Gemini.
- Saiba como analisar downloads de pacotes do PyPI com o BigQuery DataFrames.
- Confira o código-fonte do BigQuery DataFrames , notebooks de amostra, e exemplos no GitHub.
- Confira a referência da API BigQuery DataFrames.