Migración de Teradata a BigQuery: Introducción
En este documento, se describen los motivos por los que podrías migrar de Teradata a BigQuery, se comparan las funciones de Teradata y BigQuery, y se proporciona un esquema de los pasos para comenzar tu migración a BigQuery.
¿Por qué migrar de Teradata a BigQuery?
Teradata fue uno de los primeros innovadores en la administración y el análisis de grandes volúmenes de datos. Sin embargo, a medida que evolucionan tus necesidades de computación en la nube, es posible que requieras una solución más moderna para tu análisis de datos.
Si ya usaste Teradata, considera migrar a BigQuery por los siguientes motivos:
- Supera las limitaciones de la plataforma heredada.
- La arquitectura convencional de Teradata a menudo tiene dificultades para satisfacer las demandas del análisis moderno, en particular la necesidad de simultaneidad ilimitada y un rendimiento alto constante para diversas cargas de trabajo. La arquitectura sin servidores de BigQuery está diseñada para satisfacer estas demandas con el mínimo esfuerzo.
- Adopta una estrategia nativa de la nube
- Muchas organizaciones están migrando estratégicamente de la infraestructura local a la nube. Este cambio requiere que se abandonen las soluciones convencionales vinculadas al hardware, como Teradata, y se adopte un servicio completamente administrado, escalable y bajo demanda, como BigQuery, para reducir la sobrecarga operativa.
- Integración en fuentes de datos y estadísticas modernas
- Cada vez más datos empresariales clave residen en fuentes basadas en la nube. BigQuery se integra de forma nativa en el Trusted Cloud by S3NS ecosistema, lo que proporciona acceso fluido a estas fuentes y permite realizar análisis avanzados, aprendizaje automático y procesamiento de datos en tiempo real sin las limitaciones de infraestructura de Teradata.
- Optimiza los costos y la escalabilidad
- Teradata suele implicar procesos de ajuste de escala complejos y costosos. BigQuery ofrece un ajuste de escala transparente y automático del almacenamiento y el procesamiento de forma independiente, lo que elimina la necesidad de realizar una reconfiguración manual y proporciona un costo total de propiedad más predecible y, a menudo, más bajo.
Comparación de funciones
En la siguiente tabla, se comparan las funciones y los conceptos de Teradata con las funciones equivalentes de BigQuery:
Concepto de Teradata | Equivalente en BigQuery | Descripción |
---|---|---|
Teradata (local, híbrido o en la nube) | BigQuery (plataforma de datos unificada basada en IA) BigQuery proporciona un gran conjunto de capacidades adicionales en relación con un almacén de datos convencional. | BigQuery es un almacén de datos completamente administrado y nativo de la nube en Trusted Cloud by S3NS. Teradata ofrece opciones locales, híbridas y en la nube. BigQuery es sin servidores y está disponible en todas las nubes como BQ Omni. |
Herramientas de Teradata (Teradata Studio, BTEQ) | Trusted Cloud consola, BigQuery Studio y la herramienta de línea de comandos de bq | Ambos ofrecen interfaces para administrar el almacén de datos y para interactuar con él. BigQuery Studio se basa en la Web y está integrado en Trusted Cloud by S3NS y permite escribir código en SQL, Python y Apache Spark. |
Bases de datos o esquemas | Conjuntos de datos | En Teradata, las bases de datos y los esquemas se usan para organizar tablas y vistas, de manera similar a los conjuntos de datos de BigQuery. Sin embargo, la forma en que se administran y usan puede variar. |
Tabla | Tabla | Ambas plataformas usan tablas para almacenar datos en filas y columnas. |
Ver | Ver | Las vistas funcionan de manera similar en ambas plataformas, ya que proporcionan una forma de crear tablas virtuales basadas en consultas. |
Clave primaria | Clave primaria (no se aplica en GoogleSQL) | BigQuery admite claves primarias no aplicadas en GoogleSQL. Se utilizan principalmente para ayudar con la optimización de consultas. |
Clave externa | Clave externa (no se aplica en GoogleSQL) | BigQuery admite claves externas no aplicadas en GoogleSQL. Se utilizan principalmente para ayudar con la optimización de consultas. |
Índice | Agrupamiento, índices de búsqueda, índices de vectores (automáticos o administrados) | Teradata permite la creación explícita de índices. Recomendamos el agrupamiento en clústeres en BigQuery. Si bien no son equivalentes a los índices de bases de datos, el agrupamiento ayuda a almacenar los datos ordenados en el disco, lo que optimiza la recuperación de datos cuando las columnas agrupadas se usan como predicados. BigQuery admite índices de búsqueda y índices vectoriales. |
Partición | Partición | Ambas plataformas admiten la partición de tablas para mejorar el rendimiento de las consultas en tablas grandes. BigQuery solo admite la partición por fechas y números enteros. Para las cadenas, usa el agrupamiento en clústeres. |
Asignación de recursos (según el hardware y las licencias) | Reservas (basadas en la capacidad), precios según demanda (precios de análisis) | BigQuery ofrece modelos de precios flexibles. Las reservas proporcionan costos predecibles para cargas de trabajo coherentes y ad hoc con el ajuste de escala automático, mientras que los precios según demanda se enfocan en los cargos por análisis de bytes por consulta. |
BTEQ, SQL Assistant y otras herramientas cliente | BigQuery Studio, la herramienta de línea de comandos de bq y las APIs | BigQuery proporciona varias interfaces para ejecutar consultas, incluido un editor basado en la Web, una herramienta de línea de comandos y APIs para el acceso programático. |
Historial y registro de consultas | Historial de consultas, INFORMATION_SCHEMA.JOBS |
BigQuery mantiene un historial de las consultas ejecutadas, lo que te permite revisar consultas anteriores, analizar el rendimiento y solucionar problemas. INFORMATION_SCHEMA.JOBS mantiene el historial de todos los trabajos enviados en los últimos 6 meses. |
Funciones de seguridad (control de acceso, encriptación) | Funciones de seguridad (IAM, LCA y encriptación) | Ambos ofrecen seguridad sólida. BigQuery usa Trusted Cloud by S3NS IAM para el control de acceso detallado. |
Controles de red (firewalls y VPN) | Controles del servicio de VPC y Acceso privado a Google | BigQuery se integra con los Controles del servicio de VPC para restringir el acceso a tus recursos de BigQuery desde redes específicas. El Acceso privado a Google te permite acceder a BigQuery sin usar IPs públicas. |
Administración de usuarios y roles | Identity and Access Management (IAM) | BigQuery usa IAM para el control de acceso detallado. Puedes otorgar permisos específicos a usuarios y cuentas de servicio a nivel del proyecto, el conjunto de datos y la tabla. |
Otorgamiento de roles y permisos en objetos | Listas de control de acceso (LCA) en conjuntos de datos y tablas | BigQuery te permite definir LCA en conjuntos de datos y tablas para controlar el acceso a un nivel detallado. |
Encriptación en reposo y en tránsito | Encriptación en reposo y en tránsito, claves de encriptación administradas por el cliente (CMEK), las claves se pueden alojar en sistemas EKM externos. | BigQuery encripta los datos de forma predeterminada. También puedes administrar tus propias claves de encriptación para tener un control adicional. |
Funciones de administración y cumplimiento de datos | Políticas de administración de datos, DLP (prevención de pérdida de datos) | BigQuery admite políticas de administración de datos y DLP para ayudarte a aplicar los requisitos de cumplimiento y seguridad de los datos. |
Utilidades de carga de Teradata (p.ej., FastLoad, MultiLoad), bteq | El Servicio de transferencia de datos de BigQuery, la herramienta de línea de comandos de bq y las APIs | BigQuery proporciona varios métodos de carga de datos. Teradata tiene utilidades de carga especializadas. BigQuery enfatiza la escalabilidad y la velocidad para la transferencia de datos. |
Utilidades de exportación de Teradata, bteq | La herramienta de línea de comandos de bq, las APIs y la función Exportar a Cloud Storage | BigQuery ofrece la exportación de datos a varios destinos. Teradata tiene sus propias herramientas de exportación. La integración de BigQuery con Cloud Storage es una ventaja clave. La API de BigQuery Storage Read proporciona a cualquier capacidad de procesamiento externa la capacidad de leer datos de forma masiva. |
Tablas externas | Tablas externas | Ambas admiten la consulta de datos en el almacenamiento externo. BigQuery se integra bien con Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Azure Blob Storage y Google Drive. |
Vistas materializadas | Vistas materializadas | Ambos ofrecen vistas materializadas para el rendimiento de las consultas. BigQuery proporciona vistas materializadas de ajuste inteligente que siempre devuelven datos actuales y también proporcionan una reescritura automática de consultas a vistas materializadas, incluso cuando la consulta hace referencia a la tabla base. |
Funciones definidas por el usuario (UDF) | Funciones definidas por el usuario (UDF) (SQL, JavaScript) | BigQuery admite UDF en SQL y JavaScript. |
Programador de Teradata y otras herramientas de programación | Búsquedas programadas, Cloud Composer, Cloud Functions y canalizaciones de BigQuery | BigQuery se integra con Trusted Cloud by S3NS servicios de programación y otras herramientas de programación externas. |
Punto de vista | Administración de BigQuery para la supervisión, la verificación de estado, la exploración de trabajos y la administración de la capacidad | BigQuery ofrece una caja de herramientas de administración integral basada en la IU que contiene varios paneles para supervisar el estado operativo y la utilización de recursos. |
Copia de seguridad y recuperación | Clonación de conjuntos de datos, viaje en el tiempo y a prueba de fallas, instantáneas y clonación de tablas, almacenamiento regional y multirregional, copia de seguridad y recuperación en varias regiones | BigQuery ofrece instantáneas y la función de viaje en el tiempo para recuperar datos. La función retroactiva es una característica que te permite acceder a datos históricos dentro de un período determinado. BigQuery también ofrece clonación de conjuntos de datos, almacenamiento regional y multirregional, y opciones de copia de seguridad y recuperación en varias regiones. |
Funciones geoespaciales | Funciones geoespaciales | Ambas plataformas admiten datos y funciones geoespaciales. |
Comenzar
En las siguientes secciones, se resume el proceso de migración de Teradata a BigQuery:
Ejecuta una evaluación de migración
En tu migración de Teradata a BigQuery, te recomendamos que comiences ejecutando la herramienta de evaluación de migración de BigQuery para evaluar la viabilidad y los posibles beneficios de trasladar tu almacén de datos de Teradata a BigQuery. Esta herramienta proporciona un enfoque estructurado para comprender tu entorno actual de Teradata y estimar el esfuerzo que implica una migración exitosa.
Cuando se ejecuta la herramienta de evaluación de migración de BigQuery, se genera un informe de evaluación que contiene las siguientes secciones:
- Informe del sistema existente: Es una instantánea del sistema y el uso de Teradata existentes, incluida la cantidad de bases de datos, esquemas, tablas y el tamaño total en TB. También enumera los esquemas por tamaño y señala el posible uso de recursos subóptimo, como las tablas sin escrituras o con pocas lecturas.
- Sugerencias de transformación de estado estable de BigQuery: Muestra cómo se verá el sistema en BigQuery después de la migración. Incluye sugerencias para optimizar las cargas de trabajo en BigQuery y evitar el desperdicio.
- Plan de migración: Proporciona información sobre el esfuerzo de migración. Por ejemplo, pasar del sistema existente al estado estable de BigQuery. En esta sección, se incluye el recuento de las consultas que se tradujeron automáticamente y el tiempo estimado para trasladar cada tabla a BigQuery.
Para obtener más información sobre los resultados de una evaluación de migración, consulta Revisa el informe de Looker Studio.
Migra un esquema y datos desde Teradata
Una vez que hayas revisado los resultados de la evaluación de migración, puedes comenzar la migración de Teradata preparando BigQuery para la migración y, luego, configurando un trabajo de transferencia de datos.
Para obtener más información sobre el proceso de migración de Teradata, consulta Migra un esquema y datos desde Teradata.
Valida tu migración
Una vez que hayas migrado tus datos de Teradata a BigQuery, ejecuta la Herramienta de validación de datos (DVT) para realizar una validación de datos en tus datos de BigQuery recién migrados. La DVT valida varias funciones, desde el nivel de la tabla hasta el nivel de la fila, para verificar que tus datos migrados funcionen según lo previsto. Para obtener más información sobre la DVT, consulta Introducing the Data Validation Tool for EDW migrations.
Puedes acceder a la DVT en el repositorio público de GitHub de la DVT.
¿Qué sigue?
- Prueba una migración de prueba de Teradata a BigQuery.