Gerenciar sessões e E/S do BigQuery DataFrames
Neste documento, explicamos como gerenciar sessões e realizar operações de entrada e saída (E/S) ao usar DataFrames do BigQuery. Você vai aprender a criar e usar sessões, trabalhar com dados na memória e ler e gravar em arquivos e tabelas do BigQuery.
Sessões do BigQuery
O BigQuery DataFrames usa um objeto de sessão local internamente para gerenciar metadados. Cada objeto DataFrame
e Series
se conecta a uma sessão, cada sessão se conecta a um local, e cada consulta em uma sessão é executada no local em que você criou a sessão. Use o exemplo de código a seguir para criar uma sessão manualmente e usá-la para carregar dados:
Não é possível combinar dados de várias instâncias de sessão, mesmo que você as inicialize com as mesmas configurações. O exemplo de código a seguir mostra que tentar combinar dados de diferentes instâncias de sessão causa um erro:
Sessão global
O DataFrames do BigQuery fornece uma sessão global padrão que pode ser acessada com o método bigframes.pandas.get_global_session()
. No Colab, você precisa fornecer um ID do projeto para o atributo
bigframes.pandas.options.bigquery.project
antes de usá-lo. Você
também pode definir um local com o
atributo bigframes.pandas.options.bigquery.location
, que tem como padrão a
multirregião US
.
O exemplo de código a seguir mostra como definir opções para a sessão global:
Para redefinir o local ou o projeto da sessão global, encerre a sessão atual executando o método bigframes.pandas.close_session()
.
Muitas funções integradas do BigQuery DataFrames usam a sessão global por padrão. O exemplo de código a seguir mostra como as funções integradas usam a sessão global:
Dados na memória
É possível criar objetos Dataframes
e Series
com estruturas de dados integradas do Python ou do NumPy, de maneira semelhante à criação de objetos com pandas. Use o exemplo de código a seguir para criar um objeto:
Para converter objetos pandas
em objetos DataFrames
usando o método ou construtores read_pandas()
, use o seguinte exemplo de código:
Para usar o método to_pandas()
e carregar dados de DataFrames do BigQuery na
memória, use o seguinte exemplo de código:
Estimativa de custos com o parâmetro dry_run
Carregar uma grande quantidade de dados pode levar muito tempo e recursos. Para saber a quantidade de dados que está sendo processada, use o parâmetro dry_run=True
na chamada to_pandas()
. Use o exemplo de código a seguir para fazer uma simulação:
Ler e gravar arquivos
É possível ler dados de arquivos compatíveis em um BigQuery DataFrames. Esses arquivos podem estar na sua máquina local ou no Cloud Storage. Use o exemplo de código a seguir para ler dados de um arquivo CSV:
Para salvar seus DataFrames do BigQuery em arquivos locais ou do Cloud Storage
usando o método to_csv
, use o exemplo de código a seguir:
Ler e gravar tabelas do BigQuery
Para criar DataFrames do BigQuery usando referências de tabela do BigQuery e a função bigframes.pandas.read_gbq
, use o seguinte exemplo de código:
Para usar uma string SQL com a função read_gbq()
e ler dados em DataFrames do BigQuery, use o exemplo de código a seguir:
Para salvar o objeto DataFrame
em uma tabela do BigQuery, use o método
to_gbq()
do objeto DataFrame
. O exemplo de código a seguir mostra
como fazer isso:
A seguir
- Saiba como usar o BigQuery DataFrames.
- Saiba como trabalhar com tipos de dados no BigQuery DataFrames.
- Saiba como visualizar gráficos usando o BigQuery DataFrames.
- Confira a referência da API BigQuery DataFrames.