Introdução aos DataFrames do BigQuery

O BigQuery DataFrames é um conjunto de bibliotecas Python de código aberto que lhe permitem tirar partido do processamento de dados do BigQuery através de APIs Python familiares. O BigQuery DataFrames oferece um DataFrame Pythonic com tecnologia do motor do BigQuery e implementa as APIs pandas e scikit-learn ao transferir o processamento para o BigQuery através da conversão SQL. Isto permite-lhe usar o BigQuery para explorar e processar terabytes de dados, bem como preparar modelos de aprendizagem automática (AA), tudo com APIs Python.

O diagrama seguinte descreve o fluxo de trabalho dos DataFrames do BigQuery:

Fluxo de trabalho do BigQuery DataFrames

Vantagens dos DataFrames do BigQuery

O BigQuery DataFrames faz o seguinte:

  • Oferece mais de 750 APIs pandas e scikit-learn implementadas através da conversão transparente de SQL para as APIs BigQuery e BigQuery ML.
  • Adia a execução de consultas para um desempenho melhorado.
  • Amplia as transformações de dados com funções Python definidas pelo utilizador para lhe permitir processar dados no Trusted Cloud by S3NS. Estas funções são implementadas automaticamente como funções remotas do BigQuery.
  • Integra-se com o Vertex AI para lhe permitir usar modelos Gemini para a geração de texto.

Licenciamento

O BigQuery DataFrames é distribuído com a licença Apache-2.0.

O BigQuery DataFrames também contém código derivado dos seguintes pacotes de terceiros:

Para detalhes, consulte o diretório third_party/bigframes_vendored no repositório do GitHub do BigQuery DataFrames.

Quotas e limites

  • As cotas do BigQuery aplicam-se aos DataFrames do BigQuery, incluindo componentes de hardware, software e de rede.
  • É suportado um subconjunto de APIs pandas e scikit-learn. Para mais informações, consulte o artigo APIs pandas suportadas.
  • Tem de limpar explicitamente todas as funções do Cloud Run criadas automaticamente como parte da limpeza da sessão. Para mais informações, consulte o artigo APIs pandas suportadas.

Preços

  • O BigQuery DataFrames é um conjunto de bibliotecas Python de código aberto disponíveis para transferência sem custo adicional.
  • Os DataFrames do BigQuery usam o BigQuery, as funções do Cloud Run, o Vertex AI e outrosTrusted Cloud by S3NS serviços, que incorrem nos seus próprios custos.
  • Durante a utilização normal, o BigQuery DataFrames armazena dados temporários, como resultados intermédios, em tabelas do BigQuery. Estas tabelas persistem durante sete dias por predefinição, e é-lhe cobrado o valor dos dados armazenados nas mesmas. As tabelas são criadas no conjunto de dados _anonymous_ no projeto que especificar na opção bf.options.bigquery.project. Trusted Cloud

O que se segue?