从 Teradata 迁移到 BigQuery 简介

本文档简要介绍了您可能需要从 Teradata 迁移到 BigQuery 的原因,比较了 Teradata 和 BigQuery 之间的功能,并简要介绍了开始 BigQuery 迁移的步骤。

为什么要从 Teradata 迁移到 BigQuery?

Teradata 是管理和分析大量数据的早期创新者。不过,随着您的云计算需求不断演变,您可能需要更现代的数据分析解决方案。

如果您之前使用过 Teradata,请考虑迁移到 BigQuery,原因如下:

  • 克服旧版平台限制
    • Teradata 的传统架构通常难以满足现代分析的需求,尤其是对各种工作负载的无限并发和始终如一的高性能的需求。BigQuery 中的无服务器架构旨在只需极少的工作量即可满足这些需求。
  • 采用云原生策略
    • 许多组织都在有策略地从本地基础架构迁移到云端。这种转变需要从传统的硬件绑定解决方案(例如 Teradata)转向全托管式、可扩缩且按需的服务(例如 BigQuery),以降低运营开销。
  • 与现代数据源和分析集成
    • 关键的企业数据越来越多地存储在基于云的来源中。 BigQuery 与 Trusted Cloud by S3NS 生态系统原生集成,可无缝访问这些来源,并支持高级分析、机器学习和实时数据处理,而不会受到 Teradata 基础架构的限制。
  • 优化费用和可伸缩性
    • Teradata 通常涉及复杂且成本高昂的扩缩流程。 BigQuery 可独立地对存储和计算进行透明的自动扩缩,无需手动重新配置,并提供更可预测的总拥有成本(通常更低)。

特性比较

下表将 Teradata 中的功能和概念与 BigQuery 中的等效功能进行了比较:

Teradata 概念 BigQuery 等效项 说明
Teradata(本地、云、混合) BigQuery(统一的 AI 数据平台)。与传统数据仓库相比,BigQuery 提供了大量额外的功能。 BigQuery 是 Trusted Cloud by S3NS上的全托管式云原生数据仓库。Teradata 提供本地、云和混合选项。BigQuery 是无服务器架构,可在所有云上以 BQ Omni 的形式使用。
Teradata 工具(Teradata Studio、BTEQ) Trusted Cloud 控制台、BigQuery Studio、bq 命令行工具 两者都提供了用于管理数据仓库和与数据仓库互动的界面。BigQuery Studio 基于 Web 并与 Trusted Cloud by S3NS 集成,能够编写 SQL、Python 和 Apache Spark。
数据库/架构 数据集 在 Teradata 中,数据库和架构用于整理表和视图,类似于 BigQuery 数据集。不过,它们的管理和使用方式可能会有所不同。
表格 表格 这两个平台都使用表格来存储行和列中的数据。
视图 视图 视图在两个平台中的作用类似,提供了一种根据查询创建虚拟表的方法。
主键 主键(在标准 SQL 中非强制) BigQuery 在标准 SQL 中支持非强制主键。这些参数主要用于帮助 BigQuery 通过查询优化进行优化
外键 外键(在标准 SQL 中非强制) BigQuery 在标准 SQL 中支持非强制外键。这些参数主要用于帮助 BigQuery 通过查询优化进行优化
索引 聚簇、搜索索引、向量索引(自动或托管式) Teradata 允许创建显式索引。

我们建议在 BigQuery 中进行聚簇。虽然聚簇不等同于数据库索引,但它有助于存储磁盘上有序的数据,这有助于在将聚簇列用作谓词时优化数据检索。
BigQuery 支持搜索索引向量索引
分区 分区 这两个平台都支持表分区,可提高大型表的查询性能。

BigQuery 仅支持按日期和整数进行分区。对于字符串,请改用聚簇。
资源分配(基于硬件和许可) 预留(基于容量)、按需价格(分析价格) BigQuery 提供灵活的价格模式。预留使用自动扩缩为一致性和临时工作负载提供可预测的费用,而按需价格则侧重于按查询字节扫描收费。
BTEQ、SQL 助理和其他客户端工具 BigQuery Studio、bq 命令行工具、API BigQuery 提供了各种用于运行查询的界面,包括基于 Web 的编辑器、命令行工具和用于程序化访问的 API。
查询日志记录/历史记录 查询历史记录、INFORMATION_SCHEMA.JOBS BigQuery 会保留执行查询的历史记录,以便您查看过去的查询、分析性能并排查问题。INFORMATION_SCHEMA.JOBS 会保留过去 6 个月内提交的所有作业的历史记录。
安全功能(访问权限控制、加密) 安全功能(IAM、ACL、加密) 两者都提供强大的安全保障。BigQuery 使用 Trusted Cloud by S3NS IAM 进行精细访问权限控制。
网络控制(防火墙、VPN) VPC Service Controls、专用 Google 访问通道 BigQuery 与 VPC Service Controls 集成,以限制特定网络对您的 BigQuery 资源的访问。借助专用 Google 访问通道,您无需使用公共 IP 即可访问 BigQuery。
用户和角色管理 Identity and Access Management (IAM) BigQuery 使用 IAM 进行精细访问权限控制。您可以在项目、数据集和表级向用户和服务账号授予特定权限。
对象的授权和角色 数据集和表的访问控制列表 (ACL) 借助 BigQuery,您可以对数据集和表定义 ACL,以精细地控制访问权限。
静态加密和传输中加密 静态加密和传输中加密、客户管理的加密密钥 (CMEK),密钥可以托管在外部 EKM 系统中。 默认情况下,BigQuery 会对数据进行加密。您还可以管理自己的加密密钥,以便获得更多控制权。
数据治理和合规功能 数据治理政策、DLP(数据泄露防护) BigQuery 支持数据治理政策和数据泄露防护,可帮助您强制执行数据安全和合规要求。
Teradata 加载实用程序(例如 FastLoad、MultiLoad)、bteq BigQuery Data Transfer Service、bq 命令行工具、API BigQuery 提供了多种数据加载方法。Teradata 具有专门的加载实用程序。BigQuery 侧重于数据注入的可扩缩性和速度。
Teradata 导出实用程序、bteq bq 命令行工具、API、导出到 Cloud Storage BigQuery 可将数据导出到各种目标。Teradata 具有自己的导出工具。BigQuery 与 Cloud Storage 的集成是一项重要优势。

BigQuery Storage Read API 可提供任何外部计算能力来批量读取数据。
外部表 外部表 两者都支持查询外部存储空间中的数据。BigQuery 可与 Cloud Storage、Spanner、Bigtable、Cloud SQL、AWS S3、Azure Blob Storage、Google 云端硬盘完美集成。
具体化视图 具体化视图 两者都提供物化视图以提升查询性能。

BigQuery 提供智能调整物化视图,该视图始终会返回当前数据,并且还会为物化视图提供自动查询重写,即使查询引用的是基表也是如此。
用户定义的函数 (UDF) 用户定义的函数 (UDF)(SQL、JavaScript) BigQuery 支持以 SQL 和 JavaScript 编写的 UDF。
Teradata Scheduler、其他调度工具 预定查询、Cloud Composer、Cloud Functions、BigQuery 流水线 BigQuery 与 Trusted Cloud by S3NS 调度服务和其他外部调度工具集成。
Viewpoint BigQuery 管理用于监控、健康检查、探索作业和管理容量。 BigQuery 提供了一个基于界面的综合管理工具箱,其中包含多个用于监控运营状况和资源利用率的窗格。
备份与恢复 数据集克隆、时光旅行和故障安全、表快照和克隆、区域级存储空间和多区域存储空间、跨区域备份和恢复。 BigQuery 提供快照和时间旅行功能,以便恢复数据。时间旅行是一项功能,可让您访问特定时间范围内的历史数据。BigQuery 还提供数据集克隆、区域级存储空间和多区域存储空间以及跨区域备份和恢复选项。
地理空间函数 地理空间函数 这两个平台都支持地理空间数据和函数。

从何处入手?

请在以下部分详细了解 Teradata 到 BigQuery 的迁移过程:

运行迁移评估

开始从 Teradata 迁移到 BigQuery,我们建议您先运行 BigQuery 迁移评估工具,以评估将数据仓库从 Teradata 迁移到 BigQuery 的可行性和潜在优势。此工具提供了一种结构化的方法来了解您当前的 Teradata 环境,并估算成功迁移所需的工作量。

运行 BigQuery 迁移评估工具会生成评估报告,其中包含以下部分:

  • 现有系统报告:现有 Teradata 系统和使用情况的快照,包括数据库数量、架构、表和总大小(以 TB 为单位)。它还按大小列出架构并指向可能的次优资源利用率,例如没有写入或读取次数很少的表。
  • BigQuery 稳定状态转换建议:显示迁移后系统在 BigQuery 中的外观。其中包括有关在 BigQuery 中优化工作负载并避免浪费的建议。
  • 迁移计划:提供有关迁移工作本身的信息。例如,从现有系统迁移到 BigQuery 稳定状态。此部分包含自动转换的查询数量,以及将每个表迁移到 BigQuery 的预期时间。

如需详细了解迁移评估结果,请参阅查看 Looker Studio 报告

从 Teradata 迁移架构和数据

查看迁移评估结果后,您可以为迁移做好 BigQuery 准备,然后设置数据传输作业,以开始 Teradata 迁移。

如需详细了解 Teradata 迁移流程,请参阅从 Teradata 迁移架构和数据

验证迁移

将 Teradata 数据迁移到 BigQuery 后,请运行数据验证工具 (DVT) 对新迁移的 BigQuery 数据执行数据验证。DVT 会验证从表级到行级的各种函数,以验证迁移的数据是否按预期运行。如需详细了解 DVT,请参阅适用于 EDW 迁移的数据验证工具简介

您可以在 DVT 公开 GitHub 代码库中访问 DVT。

后续步骤