Introducción a una migración de Teradata a BigQuery

En este documento, se describen los motivos por los que podrías migrar de Teradata a BigQuery, se comparan las funciones entre Teradata y BigQuery, y se proporciona un resumen de los pasos para comenzar tu migración a BigQuery.

¿Por qué migrar de Teradata a BigQuery?

Teradata fue uno de los primeros innovadores en administrar y analizar grandes volúmenes de datos. Sin embargo, a medida que evolucionan tus necesidades de computación en la nube, es posible que necesites una solución más moderna para tus estadísticas de datos.

Si ya usaste Teradata, considera migrar a BigQuery por los siguientes motivos:

  • Supera las restricciones de las plataformas heredadas
    • La arquitectura convencional de Teradata a menudo tiene dificultades para satisfacer las demandas de las estadísticas modernas, en particular la necesidad de simultaneidad ilimitada y un rendimiento alto y constante para diversas cargas de trabajo. La arquitectura sin servidor de BigQuery está diseñada para controlar estas demandas con el mínimo esfuerzo.
  • Adopta una estrategia nativa de la nube
    • Muchas organizaciones se están trasladando de forma estratégica de la infraestructura local a la nube. Este cambio requiere un cambio de las soluciones convencionales con hardware, como Teradata, a un servicio completamente administrado, escalable y a pedido, como BigQuery, para reducir la sobrecarga operativa.
  • Integración con fuentes de datos y estadísticas modernas
    • Los datos empresariales clave residen cada vez más en fuentes basadas en la nube. BigQuery se integra de forma nativa en el ecosistema de Trusted Cloud by S3NS , lo que proporciona acceso sin interrupciones a estas fuentes y habilita las estadísticas avanzadas, el aprendizaje automático y el procesamiento de datos en tiempo real sin las limitaciones de infraestructura de Teradata.
  • Optimiza los costos y la escalabilidad
    • Teradata suele implicar procesos de escalamiento complejos y costosos. BigQuery ofrece un escalamiento transparente y automático del almacenamiento y el procesamiento de forma independiente, lo que elimina la necesidad de reconfiguración manual y proporciona un costo total de propiedad más predecible y, a menudo, más bajo.

Comparación de funciones

En la siguiente tabla, se comparan las funciones y los conceptos de Teradata con las funciones equivalentes de BigQuery:

Concepto de Teradata Equivalente de BigQuery Descripción
Teradata (local, en la nube, híbrido) BigQuery (plataforma de datos unificada y de IA) BigQuery proporciona un gran conjunto de funciones adicionales en relación con un almacén de datos convencional. BigQuery es un almacén de datos nativo de la nube y completamente administrado en Trusted Cloud by S3NS. Teradata ofrece opciones híbridas, locales y en la nube. BigQuery es sin servidores y está disponible en todas las nubes como BQ Omni.
Herramientas de Teradata (Teradata Studio, BTEQ) Trusted Cloud console, BigQuery Studio y la herramienta de línea de comandos de bq Ambas ofrecen interfaces para administrar el almacén de datos y también interactuar con él. BigQuery Studio es una herramienta basada en la Web y está integrada en Trusted Cloud by S3NS , y permite escribir SQL, Python y Apache Spark.
Bases de datos/Esquemas Conjuntos de datos En Teradata, las bases de datos y los esquemas se usan para organizar tablas y vistas, de manera similar a los conjuntos de datos de BigQuery. Sin embargo, la forma en que se administran y usan puede diferir.
Tabla Tabla Ambas plataformas usan tablas para almacenar datos en filas y columnas.
Ver Ver Las vistas funcionan de manera similar en ambas plataformas y proporcionan una forma de crear tablas virtuales basadas en consultas.
Clave primaria Clave primaria (no se aplica en SQL estándar) BigQuery admite claves primarias no aplicadas en SQL estándar. Se usan principalmente para ayudar a optimizar BigQuery con la optimización de consultas.
Clave externa Clave externa (no se aplica en SQL estándar) BigQuery admite claves externas no aplicadas en SQL estándar. Se usan principalmente para ayudar a optimizar BigQuery con la optimización de consultas.
Índice Agrupación, índices de búsqueda, índices de vectores (automáticos o administrados) Teradata permite la creación de índices explícitos.

Te recomendamos que agrupes los datos en BigQuery. Si bien no es equivalente a los índices de bases de datos, el agrupamiento ayuda a almacenar los datos ordenados en el disco, lo que permite optimizar la recuperación de datos cuando se usan columnas agrupadas como predicados.
BigQuery admite índices de búsqueda y índices vectoriales.
Partición Partición Ambas plataformas admiten la partición de tablas para mejorar el rendimiento de las consultas en tablas grandes.

BigQuery solo admite la partición por fechas y números enteros. En el caso de las cadenas, usa el agrupamiento en clústeres.
Asignación de recursos (según el hardware y las licencias) Reservas (basados en la capacidad), precios según demanda (precios de análisis) BigQuery ofrece modelos de precios flexibles. Las reservas proporcionan costos predecibles para cargas de trabajo coherentes y ad hoc con el ajuste de escala automático, mientras que los precios on demand se enfocan en los cargos de análisis de bytes por consulta.
BTEQ, SQL Assistant y otras herramientas de cliente BigQuery Studio, la herramienta de línea de comandos de bq y las APIs BigQuery proporciona varias interfaces para ejecutar consultas, incluido un editor basado en la Web, una herramienta de línea de comandos y APIs para el acceso programático.
Consulta el registro o el historial Historial de consultas, INFORMATION_SCHEMA.JOBS BigQuery mantiene un historial de las consultas ejecutadas, lo que te permite revisar las consultas anteriores, analizar el rendimiento y solucionar problemas. INFORMATION_SCHEMA.JOBS mantiene el historial de todos los trabajos enviados en los últimos 6 meses.
Funciones de seguridad (control de acceso, encriptación) Funciones de seguridad (IAM, LCA y encriptación) Ambas ofrecen una seguridad sólida. BigQuery usa Trusted Cloud by S3NS IAM para el control de acceso detallado.
Controles de red (firewalls y VPN) Controles del servicio de VPC y Acceso privado a Google BigQuery se integra en los Controles del servicio de VPC para restringir el acceso a tus recursos de BigQuery desde redes específicas. El Acceso privado a Google te permite acceder a BigQuery sin usar IPs públicas.
Administración de usuarios y roles Identity and Access Management (IAM) BigQuery usa IAM para el control de acceso detallado. Puedes otorgar permisos específicos a los usuarios y a las cuentas de servicio a nivel del proyecto, del conjunto de datos y de la tabla.
Otorgamientos y roles en objetos Listas de control de acceso (LCA) en conjuntos de datos y tablas BigQuery te permite definir LCA en conjuntos de datos y tablas para controlar el acceso a nivel detallado.
Encriptación en reposo y en tránsito Encriptación en reposo y en tránsito, claves de encriptación administradas por el cliente (CMEK), las claves se pueden alojar en sistemas de EKM externos. BigQuery encripta los datos de forma predeterminada. También puedes administrar tus propias claves de encriptación para obtener un control adicional.
Funciones de administración de datos y cumplimiento Políticas de administración de datos, DLP (Prevención de pérdida de datos) BigQuery admite políticas de administración de datos y DLP para ayudarte a aplicar los requisitos de seguridad y cumplimiento de los datos.
Teradata Load Utilities (p.ej., FastLoad, MultiLoad), bteq El Servicio de transferencia de datos de BigQuery, la herramienta de línea de comandos bq y las APIs BigQuery proporciona varios métodos de carga de datos. Teradata tiene utilidades de carga especializadas. BigQuery enfatiza la escalabilidad y la velocidad para la transferencia de datos.
Teradata Export Utilities, bteq La herramienta de línea de comandos de bq, las APIs y la exportación a Cloud Storage BigQuery ofrece la exportación de datos a varios destinos. Teradata tiene sus propias herramientas de exportación. La integración de BigQuery con Cloud Storage es una ventaja clave.

La API de BigQuery Storage Read proporciona cualquier capacidad de procesamiento externo para leer datos de forma masiva.
Tablas externas Tablas externas Ambas admiten la consulta de datos en el almacenamiento externo. BigQuery se integra bien con Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Azure Blob Storage y Google Drive.
Vistas materializadas Vistas materializadas Ambos ofrecen vistas materializadas para el rendimiento de las consultas.

BigQuery proporciona vistas materializadas de ajuste inteligente que siempre muestran datos actuales y también proporcionan una reescritura automática de consultas a vistas materializadas, incluso cuando la consulta hace referencia a la tabla base.
Funciones definidas por el usuario (UDF) Funciones definidas por el usuario (UDF) (SQL, JavaScript) BigQuery admite UDF en SQL y JavaScript.
Programador de Teradata y otras herramientas de programación Búsquedas programadas, Cloud Composer, Cloud Functions y canalizaciones de BigQuery BigQuery se integra con Trusted Cloud by S3NS servicios de programación y otras herramientas de programación externas.
Viewpoint Administración de BigQuery para supervisar, verificación de estado, explorar trabajos y administrar la capacidad BigQuery ofrece una caja de herramientas de administración integral basada en una IU que contiene varios paneles para supervisar el estado operativo y el uso de recursos.
Copia de seguridad y recuperación Clonación de conjuntos de datos, viaje en el tiempo y protección contra fallas, instantáneas y clonación de tablas, almacenamiento regional y multirregional, copia de seguridad y recuperación entre regiones BigQuery ofrece instantáneas y viajes en el tiempo para recuperar datos. El viaje en el tiempo es una función que te permite acceder a los datos históricos dentro de un período determinado. BigQuery también ofrece clonación de conjuntos de datos, almacenamiento regional y multirregional, y opciones de copia de seguridad y recuperación entre regiones.
Funciones geoespaciales Funciones geoespaciales Ambas plataformas admiten datos y funciones geoespaciales.

¿Por dónde empezar?

Obtén más información sobre el proceso de migración de Teradata a BigQuery en las siguientes secciones:

Ejecuta una evaluación de migración

Para comenzar tu migración de Teradata a BigQuery, te recomendamos que primero ejecutes la herramienta de evaluación de migración de BigQuery para evaluar la viabilidad y los posibles beneficios de trasladar tu almacén de datos de Teradata a BigQuery. Esta herramienta proporciona un enfoque estructurado para comprender tu entorno de Teradata actual y estimar el esfuerzo que implica una migración exitosa.

Cuando se ejecuta la herramienta de evaluación de migración de BigQuery, se genera un informe de evaluación que contiene las siguientes secciones:

  • Informe del sistema existente: Es una instantánea del sistema y el uso de Teradata existentes, incluida la cantidad de bases de datos, esquemas, tablas y el tamaño total en TB. También se enumeran los esquemas por tamaño y se apunta al posible uso de recursos deficientes, como tablas sin escrituras o pocas lecturas.
  • Sugerencias de transformación de estado estable de BigQuery: Muestra cómo se verá el sistema en BigQuery después de la migración. Incluye sugerencias para optimizar las cargas de trabajo en BigQuery y evitar el desperdicio.
  • Plan de migración: Proporciona información sobre el esfuerzo de migración. Por ejemplo, pasar del sistema existente al estado estable de BigQuery. En esta sección, se incluye el recuento de consultas que se tradujeron de forma automática y el tiempo esperado para mover cada tabla a BigQuery.

Para obtener más información sobre los resultados de una evaluación de migración, consulta Cómo revisar el informe de Looker Studio.

Migra un esquema y datos desde Teradata

Una vez que hayas revisado los resultados de la evaluación de migración, puedes comenzar la migración de Teradata. Para ello, prepara BigQuery para la migración y, luego, configura una tarea de transferencia de datos.

Para obtener más información sobre el proceso de migración de Teradata, consulta Migra un esquema y datos desde Teradata.

Valida tu migración

Una vez que hayas migrado tus datos de Teradata a BigQuery, ejecuta la Herramienta de validación de datos (DVT) para realizar una validación de datos en los datos de BigQuery que acabas de migrar. La DVT valida varias funciones, desde el nivel de la tabla hasta el nivel de la fila, para verificar que los datos migrados funcionen según lo previsto. Para obtener más información sobre la DVT, consulta Presentamos la herramienta de validación de datos para migraciones de EDW.

Puedes acceder a la DVT en el repositorio público de GitHub de la DVT.

¿Qué sigue?