Migração do Teradata para o BigQuery: introdução
Este documento descreve os motivos para migrar do Teradata para o BigQuery, compara os recursos entre os dois sistemas e fornece um resumo das etapas para iniciar a migração para o BigQuery.
Por que migrar do Teradata para o BigQuery?
A Teradata foi uma das primeiras empresas a inovar no gerenciamento e na análise de grandes volumes de dados. No entanto, à medida que suas necessidades de computação em nuvem evoluem, talvez seja necessário uma solução mais moderna para a análise de dados.
Se você já usou o Teradata, considere migrar para o BigQuery pelos seguintes motivos:
- Superar restrições de plataformas legadas
- A arquitetura convencional do Teradata geralmente tem dificuldades para atender às demandas da análise moderna, principalmente a necessidade de simultaneidade ilimitada e desempenho consistentemente alto para diversas cargas de trabalho. A arquitetura sem servidor do BigQuery foi projetada para lidar com essas demandas com o mínimo de esforço.
- Adote uma estratégia nativa da nuvem
- Muitas organizações estão migrando estrategicamente da infraestrutura local para a nuvem. Essa mudança exige uma saída das soluções convencionais e vinculadas a hardware, como o Teradata, para um serviço totalmente gerenciado, escalonável e sob demanda, como o BigQuery, para reduzir a sobrecarga operacional.
- Integração com fontes de dados e análises modernas
- Os principais dados corporativos estão cada vez mais em fontes baseadas na nuvem. O BigQuery é integrado nativamente ao ecossistema Trusted Cloud by S3NS , oferecendo acesso fácil a essas fontes e permitindo análises avançadas, machine learning e processamento de dados em tempo real sem as limitações de infraestrutura do Teradata.
- Otimizar custo e escalonabilidade
- A Teradata geralmente envolve processos de escalonamento complexos e caros. O BigQuery oferece escalonamento transparente e automático de armazenamento e computação de forma independente, eliminando a necessidade de reconfiguração manual e oferecendo um custo total de propriedade mais previsível e geralmente menor.
Comparação do recurso
A tabela a seguir compara os recursos e conceitos do Teradata com os equivalentes do BigQuery:
Conceito do Teradata | Equivalente do BigQuery | Descrição |
---|---|---|
Teradata (local, nuvem, híbrido) | BigQuery (plataforma unificada de dados de IA). O BigQuery oferece um grande conjunto de recursos adicionais em relação a um data warehouse convencional. | O BigQuery é um data warehouse totalmente gerenciado e nativo da nuvem no Trusted Cloud by S3NS. O Teradata oferece opções locais, na nuvem e híbridas. O BigQuery é sem servidor e está disponível em todas as nuvens como BQ Omni. |
Ferramentas do Teradata (Teradata Studio, BTEQ) | Trusted Cloud console, BigQuery Studio, a ferramenta de linha de comando bq | Ambos oferecem interfaces para gerenciar e interagir com o data warehouse. O BigQuery Studio é baseado na Web e integrado ao Trusted Cloud by S3NS , permitindo escrever em SQL, Python e Apache Spark. |
Bancos de dados/esquemas | Conjuntos de dados | No Teradata, bancos de dados e esquemas são usados para organizar tabelas e visualizações, de maneira semelhante aos conjuntos de dados do BigQuery. No entanto, a forma como eles são gerenciados e usados pode variar. |
Tabela | Tabela | As duas plataformas usam tabelas para armazenar dados em linhas e colunas. |
Ver | Ver | As visualizações funcionam de maneira semelhante nas duas plataformas, oferecendo uma maneira de criar tabelas virtuais com base em consultas. |
Chave primária | Chave primária (não aplicada no GoogleSQL) | O BigQuery oferece suporte a chaves primárias não aplicadas no GoogleSQL. Elas ajudam principalmente na otimização de consultas. |
Chave externa | Chave externa (não aplicada no GoogleSQL) | O BigQuery é compatível com chaves externas não aplicadas no GoogleSQL. Elas ajudam principalmente na otimização de consultas. |
Índice | Clustering, índices de pesquisa, índices de vetor (automáticos ou gerenciados) | O Teradata permite a criação explícita de índices. Recomendamos o clustering no BigQuery. Embora não seja equivalente aos índices de banco de dados, o clustering ajuda a armazenar os dados ordenados no disco, o que otimiza a recuperação de dados quando colunas em cluster são usadas como predicados. O BigQuery é compatível com índices de pesquisa e índices vetoriais. |
Particionamento | Particionamento | As duas plataformas oferecem suporte ao particionamento de tabelas para melhorar o desempenho das consultas em tabelas grandes. O BigQuery só aceita particionamento por datas e números inteiros. Para strings, use clustering. |
Alocação de recursos (com base em hardware e licenciamento) | Reservas (com base na capacidade), preços sob demanda (preços de análise) | O BigQuery oferece modelos de preços flexíveis. As reservas oferecem custos previsíveis para cargas de trabalho consistentes e ad hoc usando o escalonamento automático, enquanto os preços sob demanda se concentram em cobranças por verificação de bytes por consulta. |
BTEQ, SQL Assistant e outras ferramentas de cliente | BigQuery Studio, a ferramenta de linha de comando bq, APIs | O BigQuery oferece várias interfaces para executar consultas, incluindo um editor baseado na Web, uma ferramenta de linha de comando e APIs para acesso programático. |
Registro/histórico de consultas | Histórico de consultas, INFORMATION_SCHEMA.JOBS |
O BigQuery mantém um histórico de consultas executadas, permitindo que você revise consultas anteriores, analise o desempenho e solucione problemas. O INFORMATION_SCHEMA.JOBS mantém o histórico de todos os jobs enviados nos últimos seis meses. |
Recursos de segurança (controle de acesso, criptografia) | Recursos de segurança (IAM, ACLs, criptografia) | Ambos oferecem segurança robusta. O BigQuery usa o Trusted Cloud by S3NS IAM para controle de acesso granular. |
Controles de rede (firewalls, VPNs) | VPC Service Controls, acesso privado do Google | O BigQuery se integra ao VPC Service Controls para restringir o acesso aos seus recursos do BigQuery de redes específicas. Com o Acesso privado do Google, é possível acessar o BigQuery sem usar IPs públicos. |
Gerenciamento de usuários e funções | Identity and Access Management (IAM) | O BigQuery usa o IAM para controle de acesso refinado. É possível conceder permissões específicas a usuários e contas de serviço nos níveis do projeto, do conjunto de dados e da tabela. |
Concessões e papéis em objetos | Listas de controle de acesso (ACLs) em conjuntos de dados e tabelas | O BigQuery permite definir ACLs em conjuntos de dados e tabelas para controlar o acesso em um nível granular. |
Criptografia em repouso e em trânsito | Criptografia em repouso e em trânsito, chaves de criptografia gerenciadas pelo cliente (CMEK), que podem ser hospedadas em sistemas EKM externos. | O BigQuery criptografa os dados por padrão. Você também pode gerenciar suas próprias chaves de criptografia para ter mais controle. |
Recursos de governança e compliance de dados | Políticas de governança de dados, DLP (prevenção contra perda de dados) | O BigQuery oferece suporte a políticas de governança de dados e DLP para ajudar você a aplicar requisitos de conformidade e segurança de dados. |
Utilitários de carga do Teradata (por exemplo, FastLoad, MultiLoad), bteq | O serviço de transferência de dados do BigQuery, a ferramenta de linha de comando bq e as APIs | O BigQuery oferece vários métodos de carregamento de dados. O Teradata tem utilitários de carga especializados. O BigQuery enfatiza a escalonabilidade e a velocidade para a ingestão de dados. |
Utilitários de exportação do Teradata, bteq | A ferramenta de linha de comando bq, APIs, exportação para o Cloud Storage | O BigQuery oferece exportação de dados para vários destinos. O Teradata tem ferramentas de exportação próprias. A integração do BigQuery com o Cloud Storage é uma vantagem importante. A API BigQuery Storage Read oferece a qualquer capacidade de computação externa a possibilidade de ler dados em massa. |
Tabelas externas | Tabelas externas | Ambos permitem consultar dados em armazenamento externo. O BigQuery se integra bem ao Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Armazenamento de Blobs do Azure e Google Drive. |
Visualizações materializadas. | Visualizações materializadas. | Os dois oferecem visualizações materializadas para melhorar o desempenho das consultas. O BigQuery oferece visualizações materializadas de ajuste inteligente que sempre retornam dados atuais e também fornecem reescrita automática de consultas para visualizações materializadas, mesmo quando a consulta se refere à tabela de base. |
Funções definidas pelo usuário (UDFs) | Funções definidas pelo usuário (UDFs) (SQL, JavaScript) | O BigQuery é compatível com UDFs em SQL e JavaScript. |
Agendador do Teradata e outras ferramentas de programação | Consultas programadas, Cloud Composer, Cloud Functions e pipelines do BigQuery | O BigQuery se integra aos serviços de programação Trusted Cloud by S3NS e a outras ferramentas de programação externas. |
Mirante | Administração do BigQuery para monitoramento, verificação de integridade, análise de jobs e gerenciamento de capacidade. | O BigQuery oferece uma caixa de ferramentas de administração abrangente baseada em UI que contém vários painéis para monitorar a integridade operacional e a utilização de recursos. |
Backup e recuperação | Clonagem de conjuntos de dados, viagem no tempo e proteção contra falhas, snapshot e clonagem de tabelas, armazenamento regional e multirregional, backup e recuperação entre regiões. | O BigQuery oferece snapshots e viagem no tempo para recuperar dados. A viagem no tempo é um recurso que permite acessar dados históricos em um determinado período. O BigQuery também oferece clonagem de conjuntos de dados, armazenamento regional e multirregional, além de opções de backup e recuperação entre regiões. |
Funções geoespaciais | Funções geoespaciais | As duas plataformas oferecem suporte a dados e funções geoespaciais. |
Primeiros passos
As seções a seguir resumem o processo de migração do Teradata para o BigQuery:
Executar uma avaliação de migração
Na migração do Teradata para o BigQuery, recomendamos que você comece executando a ferramenta de avaliação de migração do BigQuery para avaliar a viabilidade e os possíveis benefícios de mover seu data warehouse do Teradata para o BigQuery. Essa ferramenta oferece uma abordagem estruturada para entender seu ambiente atual do Teradata e estimar o esforço envolvido em uma migração bem-sucedida.
A execução da ferramenta de avaliação de migração do BigQuery gera um relatório de avaliação com as seguintes seções:
- Relatório do sistema atual: um snapshot do sistema e uso atuais do Teradata, incluindo o número de bancos de dados, esquemas, tabelas e tamanho total em TB. Ele também lista os esquemas por tamanho e aponta para um possível uso de recursos abaixo do ideal, como tabelas sem gravações ou poucas leituras.
- Sugestões de transformação de estado estável do BigQuery: mostram como o sistema vai ficar no BigQuery após a migração. Ele inclui sugestões para otimizar cargas de trabalho no BigQuery e evitar desperdício.
- Plano de migração: fornece informações sobre o próprio esforço de migração. Por exemplo, ir do sistema atual para o estado estável do BigQuery. Esta seção inclui a contagem de consultas que foram traduzidas automaticamente e o tempo esperado para mover cada tabela para o BigQuery.
Para mais informações sobre os resultados de uma avaliação de migração, consulte Analisar o relatório do Looker Studio.
Migrar o esquema e os dados do Teradata
Depois de analisar os resultados da avaliação de migração, comece a migração do Teradata preparando o BigQuery para a migração e configurando um job de transferência de dados.
Para mais informações sobre o processo de migração do Teradata, consulte Migrar o esquema e os dados do Teradata.
Validar sua migração
Depois de migrar os dados do Teradata para o BigQuery, execute a Ferramenta de validação de dados (DVT) para realizar uma validação nos dados recém-migrados do BigQuery. A DVT valida várias funções, do nível da tabela ao da linha, para verificar se os dados migrados funcionam conforme o esperado. Para mais informações sobre a DVT, consulte Introdução à ferramenta de validação de dados para migrações do EDW.
Você pode acessar a DVT no repositório público do GitHub da DVT.
A seguir
- Faça uma migração de teste do Teradata para o BigQuery.