Migração do Teradata para o BigQuery: introdução

Este documento descreve os motivos para migrar do Teradata para o BigQuery, compara os recursos entre os dois sistemas e fornece um resumo das etapas para iniciar a migração para o BigQuery.

Por que migrar do Teradata para o BigQuery?

A Teradata foi uma das primeiras empresas a inovar no gerenciamento e na análise de grandes volumes de dados. No entanto, à medida que suas necessidades de computação em nuvem evoluem, talvez seja necessário uma solução mais moderna para a análise de dados.

Se você já usou o Teradata, considere migrar para o BigQuery pelos seguintes motivos:

  • Superar restrições de plataformas legadas
    • A arquitetura convencional do Teradata geralmente tem dificuldades para atender às demandas da análise moderna, principalmente a necessidade de simultaneidade ilimitada e desempenho consistentemente alto para diversas cargas de trabalho. A arquitetura sem servidor do BigQuery foi projetada para lidar com essas demandas com o mínimo de esforço.
  • Adote uma estratégia nativa da nuvem
    • Muitas organizações estão migrando estrategicamente da infraestrutura local para a nuvem. Essa mudança exige uma saída das soluções convencionais e vinculadas a hardware, como o Teradata, para um serviço totalmente gerenciado, escalonável e sob demanda, como o BigQuery, para reduzir a sobrecarga operacional.
  • Integração com fontes de dados e análises modernas
    • Os principais dados corporativos estão cada vez mais em fontes baseadas na nuvem. O BigQuery é integrado nativamente ao ecossistema Trusted Cloud by S3NS , oferecendo acesso fácil a essas fontes e permitindo análises avançadas, machine learning e processamento de dados em tempo real sem as limitações de infraestrutura do Teradata.
  • Otimizar custo e escalonabilidade
    • A Teradata geralmente envolve processos de escalonamento complexos e caros. O BigQuery oferece escalonamento transparente e automático de armazenamento e computação de forma independente, eliminando a necessidade de reconfiguração manual e oferecendo um custo total de propriedade mais previsível e geralmente menor.

Comparação do recurso

A tabela a seguir compara os recursos e conceitos do Teradata com os equivalentes do BigQuery:

Conceito do Teradata Equivalente do BigQuery Descrição
Teradata (local, nuvem, híbrido) BigQuery (plataforma unificada de dados de IA). O BigQuery oferece um grande conjunto de recursos adicionais em relação a um data warehouse convencional. O BigQuery é um data warehouse totalmente gerenciado e nativo da nuvem no Trusted Cloud by S3NS. O Teradata oferece opções locais, na nuvem e híbridas. O BigQuery é sem servidor e está disponível em todas as nuvens como BQ Omni.
Ferramentas do Teradata (Teradata Studio, BTEQ) Trusted Cloud console, BigQuery Studio, a ferramenta de linha de comando bq Ambos oferecem interfaces para gerenciar e interagir com o data warehouse. O BigQuery Studio é baseado na Web e integrado ao Trusted Cloud by S3NS , permitindo escrever em SQL, Python e Apache Spark.
Bancos de dados/esquemas Conjuntos de dados No Teradata, bancos de dados e esquemas são usados para organizar tabelas e visualizações, de maneira semelhante aos conjuntos de dados do BigQuery. No entanto, a forma como eles são gerenciados e usados pode variar.
Tabela Tabela As duas plataformas usam tabelas para armazenar dados em linhas e colunas.
Ver Ver As visualizações funcionam de maneira semelhante nas duas plataformas, oferecendo uma maneira de criar tabelas virtuais com base em consultas.
Chave primária Chave primária (não aplicada no GoogleSQL) O BigQuery oferece suporte a chaves primárias não aplicadas no GoogleSQL. Elas ajudam principalmente na otimização de consultas.
Chave externa Chave externa (não aplicada no GoogleSQL) O BigQuery é compatível com chaves externas não aplicadas no GoogleSQL. Elas ajudam principalmente na otimização de consultas.
Índice Clustering, índices de pesquisa, índices de vetor (automáticos ou gerenciados) O Teradata permite a criação explícita de índices.

Recomendamos o clustering no BigQuery. Embora não seja equivalente aos índices de banco de dados, o clustering ajuda a armazenar os dados ordenados no disco, o que otimiza a recuperação de dados quando colunas em cluster são usadas como predicados.
O BigQuery é compatível com índices de pesquisa e índices vetoriais.
Particionamento Particionamento As duas plataformas oferecem suporte ao particionamento de tabelas para melhorar o desempenho das consultas em tabelas grandes.

O BigQuery só aceita particionamento por datas e números inteiros. Para strings, use clustering.
Alocação de recursos (com base em hardware e licenciamento) Reservas (com base na capacidade), preços sob demanda (preços de análise) O BigQuery oferece modelos de preços flexíveis. As reservas oferecem custos previsíveis para cargas de trabalho consistentes e ad hoc usando o escalonamento automático, enquanto os preços sob demanda se concentram em cobranças por verificação de bytes por consulta.
BTEQ, SQL Assistant e outras ferramentas de cliente BigQuery Studio, a ferramenta de linha de comando bq, APIs O BigQuery oferece várias interfaces para executar consultas, incluindo um editor baseado na Web, uma ferramenta de linha de comando e APIs para acesso programático.
Registro/histórico de consultas Histórico de consultas, INFORMATION_SCHEMA.JOBS O BigQuery mantém um histórico de consultas executadas, permitindo que você revise consultas anteriores, analise o desempenho e solucione problemas. O INFORMATION_SCHEMA.JOBS mantém o histórico de todos os jobs enviados nos últimos seis meses.
Recursos de segurança (controle de acesso, criptografia) Recursos de segurança (IAM, ACLs, criptografia) Ambos oferecem segurança robusta. O BigQuery usa o Trusted Cloud by S3NS IAM para controle de acesso granular.
Controles de rede (firewalls, VPNs) VPC Service Controls, acesso privado do Google O BigQuery se integra ao VPC Service Controls para restringir o acesso aos seus recursos do BigQuery de redes específicas. Com o Acesso privado do Google, é possível acessar o BigQuery sem usar IPs públicos.
Gerenciamento de usuários e funções Identity and Access Management (IAM) O BigQuery usa o IAM para controle de acesso refinado. É possível conceder permissões específicas a usuários e contas de serviço nos níveis do projeto, do conjunto de dados e da tabela.
Concessões e papéis em objetos Listas de controle de acesso (ACLs) em conjuntos de dados e tabelas O BigQuery permite definir ACLs em conjuntos de dados e tabelas para controlar o acesso em um nível granular.
Criptografia em repouso e em trânsito Criptografia em repouso e em trânsito, chaves de criptografia gerenciadas pelo cliente (CMEK), que podem ser hospedadas em sistemas EKM externos. O BigQuery criptografa os dados por padrão. Você também pode gerenciar suas próprias chaves de criptografia para ter mais controle.
Recursos de governança e compliance de dados Políticas de governança de dados, DLP (prevenção contra perda de dados) O BigQuery oferece suporte a políticas de governança de dados e DLP para ajudar você a aplicar requisitos de conformidade e segurança de dados.
Utilitários de carga do Teradata (por exemplo, FastLoad, MultiLoad), bteq O serviço de transferência de dados do BigQuery, a ferramenta de linha de comando bq e as APIs O BigQuery oferece vários métodos de carregamento de dados. O Teradata tem utilitários de carga especializados. O BigQuery enfatiza a escalonabilidade e a velocidade para a ingestão de dados.
Utilitários de exportação do Teradata, bteq A ferramenta de linha de comando bq, APIs, exportação para o Cloud Storage O BigQuery oferece exportação de dados para vários destinos. O Teradata tem ferramentas de exportação próprias. A integração do BigQuery com o Cloud Storage é uma vantagem importante.

A API BigQuery Storage Read oferece a qualquer capacidade de computação externa a possibilidade de ler dados em massa.
Tabelas externas Tabelas externas Ambos permitem consultar dados em armazenamento externo. O BigQuery se integra bem ao Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Armazenamento de Blobs do Azure e Google Drive.
Visualizações materializadas. Visualizações materializadas. Os dois oferecem visualizações materializadas para melhorar o desempenho das consultas.

O BigQuery oferece visualizações materializadas de ajuste inteligente que sempre retornam dados atuais e também fornecem reescrita automática de consultas para visualizações materializadas, mesmo quando a consulta se refere à tabela de base.
Funções definidas pelo usuário (UDFs) Funções definidas pelo usuário (UDFs) (SQL, JavaScript) O BigQuery é compatível com UDFs em SQL e JavaScript.
Agendador do Teradata e outras ferramentas de programação Consultas programadas, Cloud Composer, Cloud Functions e pipelines do BigQuery O BigQuery se integra aos serviços de programação Trusted Cloud by S3NS e a outras ferramentas de programação externas.
Mirante Administração do BigQuery para monitoramento, verificação de integridade, análise de jobs e gerenciamento de capacidade. O BigQuery oferece uma caixa de ferramentas de administração abrangente baseada em UI que contém vários painéis para monitorar a integridade operacional e a utilização de recursos.
Backup e recuperação Clonagem de conjuntos de dados, viagem no tempo e proteção contra falhas, snapshot e clonagem de tabelas, armazenamento regional e multirregional, backup e recuperação entre regiões. O BigQuery oferece snapshots e viagem no tempo para recuperar dados. A viagem no tempo é um recurso que permite acessar dados históricos em um determinado período. O BigQuery também oferece clonagem de conjuntos de dados, armazenamento regional e multirregional, além de opções de backup e recuperação entre regiões.
Funções geoespaciais Funções geoespaciais As duas plataformas oferecem suporte a dados e funções geoespaciais.

Primeiros passos

As seções a seguir resumem o processo de migração do Teradata para o BigQuery:

Executar uma avaliação de migração

Na migração do Teradata para o BigQuery, recomendamos que você comece executando a ferramenta de avaliação de migração do BigQuery para avaliar a viabilidade e os possíveis benefícios de mover seu data warehouse do Teradata para o BigQuery. Essa ferramenta oferece uma abordagem estruturada para entender seu ambiente atual do Teradata e estimar o esforço envolvido em uma migração bem-sucedida.

A execução da ferramenta de avaliação de migração do BigQuery gera um relatório de avaliação com as seguintes seções:

  • Relatório do sistema atual: um snapshot do sistema e uso atuais do Teradata, incluindo o número de bancos de dados, esquemas, tabelas e tamanho total em TB. Ele também lista os esquemas por tamanho e aponta para um possível uso de recursos abaixo do ideal, como tabelas sem gravações ou poucas leituras.
  • Sugestões de transformação de estado estável do BigQuery: mostram como o sistema vai ficar no BigQuery após a migração. Ele inclui sugestões para otimizar cargas de trabalho no BigQuery e evitar desperdício.
  • Plano de migração: fornece informações sobre o próprio esforço de migração. Por exemplo, ir do sistema atual para o estado estável do BigQuery. Esta seção inclui a contagem de consultas que foram traduzidas automaticamente e o tempo esperado para mover cada tabela para o BigQuery.

Para mais informações sobre os resultados de uma avaliação de migração, consulte Analisar o relatório do Looker Studio.

Migrar o esquema e os dados do Teradata

Depois de analisar os resultados da avaliação de migração, comece a migração do Teradata preparando o BigQuery para a migração e configurando um job de transferência de dados.

Para mais informações sobre o processo de migração do Teradata, consulte Migrar o esquema e os dados do Teradata.

Validar sua migração

Depois de migrar os dados do Teradata para o BigQuery, execute a Ferramenta de validação de dados (DVT) para realizar uma validação nos dados recém-migrados do BigQuery. A DVT valida várias funções, do nível da tabela ao da linha, para verificar se os dados migrados funcionam conforme o esperado. Para mais informações sobre a DVT, consulte Introdução à ferramenta de validação de dados para migrações do EDW.

Você pode acessar a DVT no repositório público do GitHub da DVT.

A seguir