Introdução ao carregamento, à transformação e à exportação de dados

Este documento descreve as abordagens de integração de dados para carregar e transformar dados no BigQuery através dos processos de extração, carregamento e transformação (ELT) ou de extração, transformação e carregamento (ETL). Também descreve a exportação de dados do BigQuery para aplicar estatísticas noutros sistemas, conhecido como ETL inverso.

Decidir entre ELT ou ETL

É comum transformar os seus dados antes ou depois de os carregar para o BigQuery. Uma decisão fundamental é se deve transformar os dados antes de os carregar para o BigQuery (abordagem de extração, transformação e carregamento ou ETL) ou carregar os dados não processados para o BigQuery e fazer transformações através do BigQuery (abordagem de extração, carregamento e transformação ou ELT).

O gráfico seguinte mostra as várias opções de integração de dados no BigQuery, quer através de ELT ou ETL.

Uma árvore de decisão de produtos usados em fluxos de trabalho ELT ou ETL para integração de dados no BigQuery

Em geral, recomendamos a abordagem ELT à maioria dos clientes. O fluxo de trabalho ELT divide a integração de dados complexa em duas partes geríveis: extrair e carregar, e depois transformar. Os utilizadores podem escolher entre vários métodos de carregamento de dados que se adequam às suas necessidades. Depois de os dados serem carregados no BigQuery, os utilizadores com conhecimentos de SQL podem desenvolver pipelines de transformação com ferramentas como o Dataform.

As secções seguintes descrevem cada fluxo de trabalho mais detalhadamente.

Carregar e transformar dados

É comum transformar os seus dados antes ou depois de os carregar para o BigQuery. As duas abordagens comuns à integração de dados, ETL e ELT, são descritas nas secções seguintes.

Abordagem de integração de dados ELT

Com a abordagem de extração, carregamento e transformação (ELT), faz a integração de dados em dois passos distintos:

  • Extraia e carregue dados
  • Transforme dados

Por exemplo, pode extrair e carregar dados de uma origem de ficheiro JSON para uma tabela do BigQuery. Em seguida, pode usar pipelines para extrair e transformar campos em tabelas de destino.

A abordagem ELT pode simplificar o fluxo de trabalho de integração de dados das seguintes formas:

  • Elimina a necessidade de outras ferramentas de processamento de dados
  • Divide o processo de integração de dados frequentemente complexo em duas partes geríveis
  • Utiliza totalmente as capacidades do BigQuery para preparar, transformar e otimizar os seus dados em grande escala

Extrair e carregar dados

Na abordagem de integração de dados ELT, extrai dados de uma origem de dados e carrega-os no BigQuery através de qualquer um dos métodos suportados de carregamento ou acesso a dados externos.

Transformar dados no BigQuery

Depois de carregar os dados para o BigQuery, pode prepará-los e transformá-los com as seguintes ferramentas:

  • Para criar, testar, documentar e agendar colaborativamente pipelines de transformação de dados SQL avançados, use o Dataform.
  • Para fluxos de trabalho de transformação de dados mais pequenos que executam código SQL, blocos de notas Python ou preparações de dados de acordo com um agendamento, use pipelines do BigQuery.
  • Para limpar os seus dados para análise, use a preparação de dados melhorada pela IA.

Cada uma destas ferramentas é baseada na API Dataform.

Para mais informações, consulte o artigo Introdução às transformações.

Abordagem de integração de dados ETL

Na abordagem de extração, transformação e carregamento (ETL), extrai e transforma os dados antes de chegarem ao BigQuery. Esta abordagem é vantajosa se tiver um processo existente para a transformação de dados ou se pretender reduzir a utilização de recursos no BigQuery.

O Cloud Data Fusion pode ajudar a facilitar o seu processo ETL. O BigQuery também funciona com parceiros externos que transformam e carregam dados no BigQuery.

Exportar dados

Depois de processar e analisar os dados no BigQuery, pode exportar os resultados para os aplicar noutros sistemas. O BigQuery suporta as seguintes exportações:

  • Exportar resultados da consulta para um ficheiro local, o Google Drive ou o Google Sheets
  • Exportar tabelas ou resultados de consultas para o Cloud Storage, o Bigtable, o Spanner e o Pub/Sub

Este processo é denominado ETL inverso.

Para mais informações, consulte o artigo Introdução à exportação de dados no BigQuery.

O que se segue?