Migración de Teradata a BigQuery: Introducción

En este documento, se describen los motivos por los que podrías migrar de Teradata a BigQuery, se comparan las funciones entre Teradata y BigQuery, y se proporciona un esquema de los pasos para comenzar la migración a BigQuery.

¿Por qué migrar de Teradata a BigQuery?

Teradata fue uno de los primeros innovadores en la administración y el análisis de grandes volúmenes de datos. Sin embargo, a medida que evolucionan tus necesidades de computación en la nube, es posible que necesites una solución más moderna para tu análisis de datos.

Si usaste Teradata anteriormente, considera migrar a BigQuery por los siguientes motivos:

  • Supera las limitaciones de la plataforma heredada.
    • La arquitectura convencional de Teradata a menudo tiene dificultades para satisfacer las demandas del análisis moderno, en particular, la necesidad de simultaneidad ilimitada y un rendimiento alto y constante para diversas cargas de trabajo. La arquitectura sin servidores de BigQuery está diseñada para satisfacer estas demandas con un esfuerzo mínimo.
  • Adopta una estrategia nativa de la nube.
    • Muchas organizaciones están pasando estratégicamente de la infraestructura local a la nube. Este cambio requiere un alejamiento de las soluciones convencionales vinculadas al hardware, como Teradata, hacia un servicio completamente administrado, escalable y a pedido como BigQuery para reducir la sobrecarga operativa.
  • Realiza la integración con fuentes de datos y análisis modernos.
    • Los datos empresariales clave residen cada vez más en fuentes basadas en la nube. BigQuery se integra de forma nativa con el Cloud de Confiance by S3NS ecosistema, lo que proporciona un acceso fluido a estas fuentes y permite el análisis avanzado, el aprendizaje automático y el procesamiento de datos en tiempo real sin las limitaciones de infraestructura de Teradata.
  • Optimiza el costo y la escalabilidad.
    • Teradata a menudo implica procesos de escalamiento complejos y costosos. BigQuery ofrece ajuste de escala automático transparente del almacenamiento y el procesamiento de forma independiente, lo que elimina la necesidad de una reconfiguración manual y proporciona un costo total de propiedad más predecible y, a menudo, más bajo.

Comparación de funciones

En la siguiente tabla, se comparan las funciones y los conceptos de Teradata con las funciones equivalentes en BigQuery:

Concepto de Teradata Equivalente de BigQuery Descripción
Teradata (local, nube, híbrido) BigQuery (unificado, plataforma de datos de IA) BigQuery proporciona un gran conjunto de capacidades adicionales en relación con un almacén de datos convencional. BigQuery es un almacén de datos completamente administrado y nativo de la nube en Google Cloud Cloud de Confiance by S3NS. Teradata ofrece opciones locales, en la nube y híbridas. BigQuery es sin servidores y está disponible en todas las nubes como BQ Omni.
Herramientas de Teradata (Teradata Studio, BTEQ) Cloud de Confiance Consola de Google Cloud, BigQuery Studio, la herramienta de línea de comandos de bq Ambas ofrecen interfaces para administrar el almacén de datos y para interactuar con él. BigQuery Studio se basa en la Web y se integra con Cloud de Confiance by S3NS lo que permite escribir SQL, Python y Apache Spark.
Bases de datos o esquemas Conjuntos de datos En Teradata, las bases de datos y los esquemas se usan para organizar tablas y vistas, de manera similar a los conjuntos de datos de BigQuery. Sin embargo, la forma en que se administran y usan puede variar.
Tabla Tabla Ambas plataformas usan tablas para almacenar datos en filas y columnas.
Ver Ver Las vistas funcionan de manera similar en ambas plataformas, ya que proporcionan una forma de crear tablas virtuales basadas en consultas.
Clave primaria Clave primaria (no aplicada en GoogleSQL) BigQuery admite claves primarias no aplicadas en GoogleSQL. Estas son principalmente para ayudar con la optimización de consultas.
Clave externa Clave externa (no aplicada en GoogleSQL) BigQuery admite claves externas no aplicadas en GoogleSQL. Estas son principalmente para ayudar con la optimización de consultas.
Índice Agrupamiento en clústeres, índices de búsqueda, índices de vectores (automáticos o administrados) Teradata permite la creación explícita de índices.

Recomendamos el agrupamiento en clústeres en BigQuery. Si bien no es equivalente a los índices de bases de datos, el agrupamiento en clústeres ayuda a almacenar los datos ordenados en el disco, lo que ayuda a optimizar la recuperación de datos cuando las columnas agrupadas en clústeres se usan como predicados.
BigQuery admite índices de búsqueda y de vectores.
Partición Partición Ambas plataformas admiten la partición de tablas para mejorar el rendimiento de las consultas en tablas grandes.

BigQuery solo admite la partición por fechas y números enteros. Para las cadenas, usa el agrupamiento en clústeres en su lugar.
Asignación de recursos (según el hardware y las licencias) Reservas (basadas en la capacidad), precios a pedido (precios de análisis) BigQuery ofrece modelos de precios flexibles. Las reservas proporcionan costos predecibles para cargas de trabajo coherentes y ad hoc con el ajuste de escala automático, mientras que los precios a pedido se centran en los cargos por análisis de bytes por consulta.
BTEQ, SQL Assistant y otras herramientas cliente BigQuery Studio, la herramienta de línea de comandos de bq, las APIs BigQuery proporciona varias interfaces para ejecutar consultas, incluido un editor basado en la Web, una herramienta de línea de comandos y APIs para el acceso programático.
Registro o historial de consultas Historial de consultas, INFORMATION_SCHEMA.JOBS BigQuery mantiene un historial de las consultas ejecutadas, lo que te permite revisar consultas anteriores, analizar el rendimiento y solucionar problemas. INFORMATION_SCHEMA.JOBS mantiene el historial de todos los trabajos enviados en los últimos 6 meses.
Funciones de seguridad (control de acceso, encriptación) Funciones de seguridad (IAM, LCA, encriptación) Ambas ofrecen una seguridad sólida. BigQuery usa Cloud de Confiance by S3NS IAM para el control de acceso detallado.
Controles de red (firewalls, VPNs) Controles del servicio de VPC, Acceso privado a Google BigQuery se integra con los Controles del servicio de VPC para restringir el acceso a tus recursos de BigQuery desde redes específicas. El Acceso privado a Google te permite acceder a BigQuery sin usar IPs públicas.
Administración de usuarios y roles Identity and Access Management (IAM) BigQuery usa IAM para el control de acceso detallado. Puedes otorgar permisos específicos a usuarios y cuentas de servicio en los niveles de proyecto, conjunto de datos y tabla.
Otorgamientos y roles en objetos Listas de control de acceso (LCA) en conjuntos de datos y tablas BigQuery te permite definir LCA en conjuntos de datos y tablas para controlar el acceso a un nivel detallado.
Encriptación en reposo y en tránsito Encriptación en reposo y en tránsito, claves de encriptación administradas por el cliente (CMEK), las claves se pueden alojar en sistemas EKM externos BigQuery encripta los datos de forma predeterminada. También puedes administrar tus propias claves de encriptación para obtener un control adicional.
Funciones de administración de datos y cumplimiento Políticas de administración de datos, DLP (prevención de pérdida de datos) BigQuery admite políticas de administración de datos y DLP para ayudarte a aplicar la seguridad de los datos y los requisitos de cumplimiento.
Utilidades de carga de Teradata (p.ej., FastLoad, MultiLoad), bteq El Servicio de transferencia de datos de BigQuery, la herramienta de línea de comandos de bq, las APIs BigQuery proporciona varios métodos de carga de datos. Teradata tiene utilidades de carga especializadas. BigQuery enfatiza la escalabilidad y la velocidad para la transferencia de datos.
Utilidades de exportación de Teradata, bteq La herramienta de línea de comandos de bq, las APIs, la exportación a Cloud Storage BigQuery ofrece la exportación de datos a varios destinos. Teradata tiene sus propias herramientas de exportación. La integración de BigQuery con Cloud Storage es una ventaja clave.

La API de BigQuery Storage Read proporciona cualquier capacidad de procesamiento externa para leer datos de forma masiva.
Tablas externas Tablas externas Ambas admiten la consulta de datos en almacenamiento externo. BigQuery se integra bien con Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Azure Blob Storage y Google Drive.
Vistas materializadas Vistas materializadas Ambas ofrecen vistas materializadas para el rendimiento de las consultas.

BigQuery proporciona vistas materializadas de ajuste inteligente que siempre muestran datos actuales y también proporcionan la reescritura automática de consultas a vistas materializadas, incluso cuando la consulta hace referencia a la tabla base.
Funciones definidas por el usuario (UDF) Funciones definidas por el usuario (UDF) (SQL, JavaScript) BigQuery admite UDF en SQL y JavaScript.
Programador de Teradata y otras herramientas de programación Consultas programadas, Managed Service for Apache Airflow, Cloud Functions, canalizaciones de BigQuery BigQuery se integra con Cloud de Confiance by S3NS servicios de programación y otras herramientas de programación externas.
Mirador Administración de BigQuery para la supervisión, la verificación de estado, la exploración de trabajos y la administración de la capacidad BigQuery ofrece una caja de herramientas de administración integral basada en la IU que contiene varios paneles para supervisar el estado operativo y el uso de recursos.
Copia de seguridad y recuperación Clonación de conjuntos de datos, viaje en el tiempo y modo a prueba de fallas, instantánea y clonación de tablas, almacenamiento regional y multirregional, copia de seguridad y recuperación entre regiones BigQuery ofrece instantáneas y viajes en el tiempo para recuperar datos. El viaje en el tiempo es una función que te permite acceder a datos históricos dentro de un período determinado. BigQuery también ofrece clonación de conjuntos de datos, almacenamiento regional y multirregional, y opciones de copia de seguridad y recuperación entre regiones.
Funciones geoespaciales Funciones geoespaciales Ambas plataformas admiten datos y funciones geoespaciales.

Comenzar

En las siguientes secciones, se resume el proceso de migración de Teradata a BigQuery:

Ejecuta una evaluación de migración

En tu migración de Teradata a BigQuery, te recomendamos que comiences por ejecutar la herramienta de evaluación de migración de BigQuery para evaluar la viabilidad y los beneficios potenciales de trasladar tu almacén de datos de Teradata a BigQuery. Esta herramienta proporciona un enfoque estructurado para comprender tu entorno actual de Teradata y estimar el esfuerzo que implica una migración exitosa.

La ejecución de la herramienta de evaluación de migración de BigQuery produce un informe de evaluación que contiene las siguientes secciones:

  • Informe del sistema existente: Una instantánea del sistema y el uso de Teradata existentes, incluida la cantidad de bases de datos, esquemas, tablas y el tamaño total en TB. También se enumeran los esquemas por tamaño y se apunta al posible uso de recursos deficientes, como tablas sin escrituras o pocas lecturas.
  • Sugerencias de transformación de estado estable de BigQuery: Muestra cómo se verá el sistema en BigQuery después de la migración. Incluye sugerencias para optimizar las cargas de trabajo en BigQuery y evitar el desperdicio.
  • Plan de migración: Proporciona información sobre el esfuerzo de migración. Por ejemplo, pasar del sistema existente al estado estable de BigQuery. En esta sección, se incluye el recuento de consultas que se tradujeron automáticamente y el tiempo previsto para trasladar cada tabla a BigQuery.

Para obtener más información sobre los resultados de una evaluación de migración, consulta Revisa el informe de Data Studio.

Migra un esquema y datos desde Teradata

Una vez que hayas revisado los resultados de la evaluación de migración, puedes comenzar la migración de Teradata. Para ello, prepara BigQuery para la migración y, luego, configura un trabajo de transferencia de datos.

Para obtener más información sobre el proceso de migración de Teradata, consulta Migra un esquema y datos desde Teradata.

Valida tu migración

Una vez que hayas migrado tus datos de Teradata a BigQuery, ejecuta la Herramienta de validación de datos (DVT) para realizar una validación de datos en los datos de BigQuery recién migrados. La DVT valida varias funciones, desde el nivel de la tabla hasta el nivel de la fila, para verificar que los datos migrados funcionen según lo previsto. Para obtener más información sobre la DVT, consulta Presentamos la Herramienta de validación de datos para migraciones de EDW.

Puedes acceder a la DVT en el repositorio público de GitHub de la DVT.

¿Qué sigue?