Faça a gestão das sessões e da E/S do BigQuery DataFrames
Este documento explica como gerir sessões e realizar operações de entrada e saída (E/S) quando usa DataFrames do BigQuery. Vai aprender a criar e usar sessões, trabalhar com dados na memória e ler e escrever em ficheiros e tabelas do BigQuery.
Sessões do BigQuery
O BigQuery DataFrames usa um objeto de sessão local internamente para gerir metadados. Cada objeto DataFrame
e Series
está ligado a uma sessão. Cada sessão está ligada a uma localização, e cada consulta numa sessão é executada na localização onde criou a sessão. Use o exemplo de código
seguinte para criar manualmente uma sessão e usá-la para carregar dados:
Não pode combinar dados de várias instâncias de sessões, mesmo que os inicialize com as mesmas definições. O exemplo de código seguinte mostra que a tentativa de combinar dados de diferentes instâncias de sessões provoca um erro:
Sessão global
O BigQuery DataFrames fornece uma sessão global predefinida à qual pode aceder com o método bigframes.pandas.get_global_session()
. No Colab, tem de fornecer um ID do projeto para o atributo bigframes.pandas.options.bigquery.project
antes de o usar. Também pode definir uma localização com o atributo bigframes.pandas.options.bigquery.location
, que é predefinido para a US
multirregião.
O seguinte exemplo de código mostra como definir opções para a sessão global:
Para repor a localização ou o projeto da sessão global, feche a sessão atual executando o método bigframes.pandas.close_session()
.
Muitas funções incorporadas do BigQuery DataFrames usam a sessão global por predefinição. O exemplo de código seguinte mostra como as funções incorporadas usam a sessão global:
Dados na memória
Pode criar objetos Dataframes
e Series
com estruturas de dados Python ou NumPy incorporadas, de forma semelhante à criação de objetos com o pandas. Use o exemplo de código seguinte para criar um objeto:
Para converter objetos pandas
em objetos DataFrames
através do método read_pandas()
ou dos construtores, use o seguinte exemplo de código:
Para usar o método to_pandas()
para carregar dados de DataFrames do BigQuery para a memória, use o seguinte exemplo de código:
Estimativa de custos com o parâmetro dry_run
O carregamento de uma grande quantidade de dados pode demorar muito tempo e consumir muitos recursos. Para ver a quantidade de dados que está a ser processada, use o parâmetro dry_run=True
na chamada to_pandas()
. Use o seguinte exemplo de código para fazer um teste de execução:
Ler e escrever ficheiros
Pode ler dados de ficheiros compatíveis para um BigQuery DataFrames. Estes ficheiros podem estar no seu computador local ou no armazenamento na nuvem. Use o seguinte exemplo de código para ler dados de um ficheiro CSV:
Para guardar os seus DataFrames do BigQuery em ficheiros locais ou ficheiros do Cloud Storage
através do método to_csv
, use o seguinte exemplo de código:
Ler e escrever tabelas do BigQuery
Para criar DataFrames do BigQuery com referências de tabelas do BigQuery e a função bigframes.pandas.read_gbq
, use o seguinte exemplo de código:
Para usar uma string SQL com a função read_gbq()
para ler dados em DataFrames do BigQuery, use o seguinte exemplo de código:
Para guardar o objeto DataFrame
numa tabela do BigQuery, use o método to_gbq()
do objeto DataFrame
. O seguinte exemplo de código mostra como o fazer:
O que se segue?
- Saiba como usar os DataFrames do BigQuery.
- Saiba como trabalhar com tipos de dados em DataFrames do BigQuery.
- Saiba como visualizar gráficos com os DataFrames do BigQuery.
- Explore a referência da API BigQuery DataFrames.