Introdução à transformação de dados

Este documento descreve as diferentes formas de transformar dados nas suas tabelas do BigQuery.

Para mais informações sobre integrações de dados, consulte o artigo Introdução ao carregamento, à transformação e à exportação de dados.

Métodos de transformação de dados

Pode transformar dados no BigQuery das seguintes formas:

  • Use a linguagem de manipulação de dados (DML) para transformar dados nas suas tabelas do BigQuery.
  • Use vistas materializadas para colocar automaticamente em cache os resultados de uma consulta para aumentar o desempenho e a eficiência.
  • Use consultas contínuas para analisar os dados recebidos em tempo real e inserir continuamente as linhas de saída numa tabela do BigQuery ou exportar para o Pub/Sub ou o Bigtable.
  • Use pipelines do BigQuery ou o Dataform para desenvolver, testar, controlar versões e agendar pipelines no BigQuery.
  • Use preparações de dados com recomendações de transformação geradas pela IA e sensíveis ao contexto para limpar dados para análise. As preparações de dados são baseadas na API Dataform.

A tabela seguinte mostra as diferentes caraterísticas de cada método de transformação.

Método de transformação Alvo de transformação Método de definição Frequência de transformação
Linguagem de manipulação de dados (DML) Tabela (no local) SQL DML Iniciada pelo utilizador ou agendada
Vistas materializadas Vista materializada Consulta SQL Atualização automática ou manual
Consultas contínuas Tabela, tópico do Pub/Sub, tabela do Bigtable Consulta SQL com EXPORT DATA Contínuo
Dataform Tabela Dataform core (SQLX) Agendado (pipelines)
Pipelines do BigQuery Tabela Pipelines do BigQuery Agendado (pipelines)
Preparação de dados Tabela Editor visual Agendado

Também pode rever o histórico de alterações de uma tabela do BigQuery para examinar as transformações feitas a uma tabela num intervalo de tempo especificado.

Transforme dados com DML

Pode usar a linguagem de manipulação de dados (DML) para transformar dados nas suas tabelas do BigQuery. As declarações DML são consultas GoogleSQL que manipulam dados de tabelas existentes para adicionar ou eliminar linhas, modificar dados em linhas existentes ou unir dados com valores de outra tabela. As transformações de DML também são suportadas em tabelas particionadas.

Pode executar várias declarações DML em simultâneo, em que o BigQuery coloca em fila várias declarações DML que transformam os seus dados um após o outro. O BigQuery gere como as declarações DML concorrentes são executadas, com base no tipo de transformação.

Transforme dados com vistas materializadas

As vistas materializadas são vistas pré-calculadas que armazenam periodicamente em cache os resultados de uma consulta SQL para aumentar o desempenho e a eficiência. O BigQuery tira partido dos resultados pré-calculados das vistas materializadas e, sempre que possível, lê apenas as alterações das tabelas base para calcular resultados atualizados.

As vistas materializadas são pré-calculadas em segundo plano quando as tabelas base são alteradas. Todas as alterações incrementais de dados das tabelas base são adicionadas automaticamente às vistas materializadas, sem necessidade de ação por parte do utilizador.

Transforme dados com consultas contínuas

As consultas contínuas são declarações SQL executadas continuamente. As consultas contínuas permitem-lhe analisar os dados recebidos no BigQuery em tempo real. Pode inserir as linhas de saída produzidas por uma consulta contínua numa tabela do BigQuery ou exportá-las para o Pub/Sub ou o Bigtable.

Transforme dados com o Dataform

O Dataform permite-lhe gerir a transformação de dados no processo de extração, carregamento e transformação (ELT) para integração de dados. Depois de extrair dados não processados dos sistemas de origem e carregá-los no BigQuery, pode usar o Dataform para os transformar num conjunto de tabelas organizado, testado e documentado. Enquanto na DML adota uma abordagem imperativa, indicando ao BigQuery exatamente como transformar os seus dados, no Dataform escreve declarações declarativas em que o Dataform determina a transformação necessária para alcançar esse estado.

No Dataform, pode desenvolver, testar e controlar as versões de fluxos de trabalho SQL para a transformação de dados desde declarações de origens de dados a tabelas de saída, vistas ou vistas materializadas. Pode desenvolver fluxos de trabalho SQL com o Dataform Core ou JavaScript puro. O Dataform core é uma meta-linguagem de código aberto que expande o SQL com SQLX e JavaScript. Pode usar o Dataform core para gerir dependências, configurar testes de qualidade de dados automatizados e documentar descrições de tabelas ou colunas no código.

O Dataform armazena o código do fluxo de trabalho SQL em repositórios e usa o Git para acompanhar as alterações aos ficheiros. Os espaços de trabalho de desenvolvimento no Dataform permitem-lhe trabalhar no conteúdo do repositório sem afetar o trabalho de outros que estejam a trabalhar no mesmo repositório. Pode associar repositórios do Dataform a fornecedores Git de terceiros, incluindo os Azure DevOps Services, o Bitbucket, o GitHub e o GitLab.

Pode executar ou agendar fluxos de trabalho SQL com configurações de lançamento e configurações de fluxo de trabalho do Dataform. Em alternativa, pode agendar execuções com o Cloud Composer ou com os fluxos de trabalho e o Cloud Scheduler. Durante a execução, o Dataform executa consultas SQL no BigQuery por ordem das dependências de objetos no seu fluxo de trabalho SQL. Após a execução, pode usar as tabelas e as vistas definidas para análise no BigQuery.

Para saber como criar fluxos de trabalho SQL de transformação de dados no Dataform, consulte os artigos Vista geral do Dataform e Funcionalidades do Dataform.

Transforme dados com pipelines do BigQuery

Os pipelines do BigQuery são baseados no Dataform e permitem-lhe criar e gerir a transformação de dados em processos de extração, carregamento e transformação (ELT) ou extração, transformação e carregamento (ETL).

Pode criar e gerir pipelines do BigQuery de forma visual no BigQuery Studio.

Para saber como criar pipelines do BigQuery, consulte o artigo Crie pipelines.

Prepare dados no BigQuery

Para reduzir o trabalho de preparação de dados, o BigQuery permite-lhe limpar dados com sugestões de transformação geradas pelo Gemini. A preparação de dados no BigQuery oferece a seguinte assistência:

  • Aplicar transformações e regras de qualidade de dados
  • Padronizar e enriquecer dados
  • Automatizar o mapeamento de esquemas

Pode validar os resultados numa pré-visualização dos seus dados antes de executar as alterações em todos os dados.

Para mais informações, consulte o artigo Introdução à preparação de dados do BigQuery.

O que se segue?