Migration von Teradata zu BigQuery: Einführung

In diesem Dokument werden die Gründe für eine Migration von Teradata zu BigQuery erläutert, die Funktionen von Teradata und BigQuery verglichen und die Schritte beschrieben, die für den Beginn der BigQuery-Migration erforderlich sind.

Warum von Teradata zu BigQuery migrieren?

Teradata war ein früher Innovator bei der Verwaltung und Analyse großer Datenmengen. Mit der Weiterentwicklung Ihrer Cloud-Computing-Anforderungen benötigen Sie jedoch möglicherweise eine modernere Lösung für Ihre Datenanalysen.

Wenn Sie Teradata bereits verwendet haben, sollten Sie aus den folgenden Gründen zu BigQuery migrieren:

  • Einschränkungen der Legacy-Plattform überwinden
    • Die herkömmliche Architektur von Teradata kann die Anforderungen moderner Analysen oft nicht erfüllen, insbesondere den Bedarf an unbegrenzter Nebenläufigkeit und konstant hoher Leistung für verschiedene Arbeitslasten. Die serverlose Architektur in BigQuery ist so konzipiert, dass diese Anforderungen mit minimalem Aufwand erfüllt werden.
  • Cloudnative Strategie übernehmen
    • Viele Unternehmen verlagern ihre Infrastruktur strategisch von lokalen Umgebungen in die Cloud. Diese Verlagerung erfordert eine Abkehr von herkömmlichen, hardwaregebundenen Lösungen wie Teradata hin zu einem vollständig verwalteten, skalierbaren On-Demand-Dienst wie BigQuery, um den Betriebsaufwand zu reduzieren.
  • Verknüpfung mit modernen Datenquellen und Analysen
    • Wichtige Unternehmensdaten befinden sich zunehmend in cloudbasierten Quellen. BigQuery ist nativ in das Cloud de Confiance by S3NS Ökosystem eingebunden, bietet nahtlosen Zugriff auf diese Quellen und ermöglicht erweiterte Analysen, maschinelles Lernen und Echtzeit-Datenverarbeitung ohne die Infrastruktur Beschränkungen von Teradata.
  • Kosten und Skalierbarkeit optimieren
    • Teradata erfordert oft komplexe und kostspielige Skalierungsprozesse. BigQuery bietet eine transparente und automatische Skalierung von Speicher und Computing unabhängig voneinander. Dadurch entfällt die manuelle Neukonfiguration und es entstehen vorhersehbarere und oft niedrigere Gesamtbetriebskosten.

Funktionsvergleich

In der folgenden Tabelle werden die Funktionen und Konzepte in Teradata mit den entsprechenden Funktionen in BigQuery verglichen:

Teradata-Konzept BigQuery-Entsprechung Beschreibung
Teradata (lokal, Cloud, Hybrid) BigQuery (einheitliche KI-Datenplattform) BigQuery bietet im Vergleich zu einem herkömmlichen Data Warehouse eine Vielzahl zusätzlicher Funktionen. BigQuery ist ein vollständig verwaltetes, cloudnatives Data Warehouse in Google Cloud Cloud de Confiance by S3NS. Teradata bietet lokale, Cloud- und Hybridoptionen. BigQuery ist serverlos und in allen Clouds als BQ Omni. verfügbar.
Teradata-Tools (Teradata Studio, BTEQ) Cloud de Confiance Google Cloud Console, BigQuery Studio, bq-Befehlszeilentool Beide bieten Schnittstellen für die Verwaltung und Interaktion mit dem Data Warehouse. BigQuery Studio ist webbasiert und in Google Cloud eingebunden. Cloud de Confiance by S3NS Es bietet die Möglichkeit, SQL-, Python- und Apache Spark-Code zu schreiben.
Datenbanken/Schemas Datasets In Teradata werden Datenbanken und Schemas verwendet, um Tabellen und Ansichten zu organisieren, ähnlich wie BigQuery-Datasets. Die Verwaltung und Verwendung kann sich jedoch unterscheiden.
Tabelle Tabelle Beide Plattformen verwenden Tabellen, um Daten in Zeilen und Spalten zu speichern.
Ansicht Ansicht Ansichten funktionieren auf beiden Plattformen ähnlich und bieten eine Möglichkeit, virtuelle Tabellen auf der Grundlage von Abfragen zu erstellen.
Primärschlüssel Primärschlüssel (in GoogleSQL nicht erzwungen) BigQuery unterstützt nicht erzwungene Primärschlüssel in GoogleSQL. Diese dienen in erster Linie zur Optimierung von Abfragen.
Fremdschlüssel Fremdschlüssel (in GoogleSQL nicht erzwungen) BigQuery unterstützt nicht erzwungene Fremdschlüssel in GoogleSQL. Diese dienen in erster Linie zur Optimierung von Abfragen.
Index Clustering, Suchindexe, Vektorindexe (automatisch oder verwaltet) Teradata ermöglicht die explizite Indexerstellung.

Wir empfehlen Clustering in BigQuery. Clustering ist zwar nicht mit Datenbankindexen vergleichbar, trägt aber dazu bei, die Daten sortiert auf dem Laufwerk zu speichern. Dies optimiert den Datenabruf, wenn gruppierte Spalten als Prädikate verwendet werden.
BigQuery unterstützt Suchindexe und Vektorindexe.
Partitionierung Partitionierung Beide Plattformen unterstützen die Tabellenpartitionierung, um die Abfrageleistung für große Tabellen zu verbessern.

BigQuery unterstützt nur die Partitionierung nach Datum und Ganzzahlen. Verwenden Sie für Strings stattdessen Clustering.
Ressourcenzuweisung (basierend auf Hardware und Lizenzierung) Reservierungen (kapazitätsbasiert), On-Demand-Preise (Analysepreise) BigQuery bietet flexible Preismodelle. Reservierungen bieten vorhersehbare Kosten für konsistente und Ad-hoc-Arbeitslasten mit Autoscaling, während On-Demand-Preise auf Kosten pro Byte-Scan pro Abfrage basieren.
BTEQ, SQL Assistant, andere Clienttools BigQuery Studio, bq-Befehlszeilentool, APIs BigQuery bietet verschiedene Schnittstellen zum Ausführen von Abfragen, darunter einen webbasierten Editor, ein Befehlszeilentool und APIs für den programmatischen Zugriff.
Abfragelogging/-verlauf Abfrageverlauf, INFORMATION_SCHEMA.JOBS BigQuery speichert einen Verlauf der ausgeführten Abfragen, sodass Sie frühere Abfragen überprüfen, die Leistung analysieren und Probleme beheben können. INFORMATION_SCHEMA.JOBS enthält den Verlauf aller Jobs, die in den letzten sechs Monaten gesendet wurden.
Sicherheitsfunktionen (Zugriffssteuerung, Verschlüsselung) Sicherheitsfunktionen (IAM, ACLs, Verschlüsselung) Beide bieten umfassende Sicherheit. BigQuery verwendet Cloud de Confiance by S3NS IAM für eine detaillierte Zugriffssteuerung.
Netzwerkeinstellungen (Firewalls, VPNs) VPC Service Controls, privater Google-Zugriff BigQuery lässt sich in VPC Service Controls einbinden, um den Zugriff auf Ihre BigQuery-Ressourcen aus bestimmten Netzwerken einzuschränken. Mit dem privater Google-Zugriff können Sie auf BigQuery zugreifen, ohne öffentliche IPs zu verwenden.
Nutzer- und Rollenverwaltung Identity and Access Management (IAM) BigQuery verwendet IAM für eine detaillierte Zugriffssteuerung. Sie können Nutzern und Dienstkonten bestimmte Berechtigungen auf Projekt-, Dataset- und Tabellenebene gewähren.
Berechtigungen und Rollen für Objekte Access Control Lists (ACLs) für Datasets und Tabellen Mit BigQuery können Sie ACLs für Datasets und Tabellen definieren, um den Zugriff auf detaillierter Ebene zu steuern.
Verschlüsselung ruhender Daten und Daten, die übertragen werden Verschlüsselung ruhender Daten und Daten während der Übertragung, kundenverwaltete Verschlüsselungsschlüssel (CMEK), Schlüssel können in externen EKM-Systemen gehostet werden. BigQuery verschlüsselt Daten standardmäßig. Sie können auch eigene Verschlüsselungsschlüssel verwalten, um zusätzliche Kontrolle zu erhalten.
Features für Data Governance und Compliance Data-Governance-Richtlinien, Schutz vor Datenverlust (Data Loss Prevention, DLP) BigQuery unterstützt Data-Governance-Richtlinien und DLP, um Ihnen bei der Durchsetzung von Datensicherheits- und Compliance-Anforderungen zu helfen.
Teradata-Ladedienstprogramme (z.B. FastLoad, MultiLoad), bteq BigQuery Data Transfer Service, bq-Befehlszeilentool, APIs BigQuery bietet verschiedene Methoden zum Laden von Daten. Teradata verfügt über spezielle Ladedienstprogramme. BigQuery legt Wert auf Skalierbarkeit und Geschwindigkeit bei der Datenaufnahme.
Teradata-Exportdienstprogramme, bteq bq-Befehlszeilentool, APIs, Export nach Cloud Storage BigQuery bietet den Datenexport zu verschiedenen Zielen. Teradata verfügt über eigene Exporttools. Die Einbindung von BigQuery in Cloud Storage ist ein wichtiger Vorteil.

Die BigQuery Storage Read API bietet jeder externen Compute-Einheit die Möglichkeit, Daten in großen Mengen zu lesen.
Externe Tabellen Externe Tabellen Beide unterstützen das Abfragen von Daten in externem Speicher. BigQuery lässt sich gut in Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Azure Blob Storage und Google Drive einbinden.
Materialisierte Ansichten Materialisierte Ansichten Beide bieten materialisierte Ansichten für die Abfrageleistung.

BigQuery bietet materialisierte Ansichten mit Smart Tuning, die immer aktuelle Daten zurückgeben und auch Abfragen automatisch in materialisierte Ansichten umschreiben, selbst wenn sich die Abfrage auf die Basistabelle bezieht.
Benutzerdefinierte Funktionen (User Defined Functions, UDFs) Benutzerdefinierte Funktionen (User Defined Functions, UDFs) (SQL, JavaScript) BigQuery unterstützt UDFs in SQL und JavaScript.
Teradata Scheduler, andere Planungstools Geplante Abfragen, Managed Service for Apache Airflow, Cloud Functions, BigQuery-Pipelines BigQuery lässt sich in Cloud de Confiance by S3NS Planungsdienste und andere externe Planungstools einbinden.
Aussichtspunkt BigQuery-Verwaltung für Monitoring, Systemdiagnose, Jobs untersuchen und Kapazität verwalten. BigQuery bietet eine umfassende Verwaltungsoberfläche mit mehreren Bereichen zur Überwachung des Betriebszustands und der Ressourcennutzung.
Sicherung und Wiederherstellung Dataset-Klonen, Zeitreisen und Fail-Safe, Tabellensnapshot und -klonen, regionaler und multiregionaler Speicher, regionsübergreifende Sicherung und Wiederherstellung. BigQuery bietet Snapshots und Zeitreisen zur Wiederherstellung von Daten. Mit der Funktion „Zeitreisen“ können Sie innerhalb eines bestimmten Zeitraums auf Verlaufsdaten zugreifen. BigQuery bietet außerdem Dataset-Klonen, regionalen und multiregionalen Speicher sowie regionsübergreifende Sicherungs- und Wiederherstellungsoptionen.
Geografische Funktionen Geografische Funktionen Beide Plattformen unterstützen geografische Daten und Funktionen.

Jetzt starten

In den folgenden Abschnitten wird der Migrationsprozess von Teradata zu BigQuery zusammengefasst:

Migrationsbewertung ausführen

Bei der Migration von Teradata zu BigQuery empfehlen wir, zuerst das BigQuery-Migrationsbewertungstool auszuführen, um die Machbarkeit und die potenziellen Vorteile der Migration Ihres Data Warehouse von Teradata zu BigQuery zu bewerten. Dieses Tool bietet einen strukturierten Ansatz, um Ihre aktuelle Teradata-Umgebung zu verstehen und den Aufwand für eine erfolgreiche Migration zu schätzen.

Wenn Sie das BigQuery-Migrationsbewertungstool ausführen, wird ein Bewertungsbericht mit den folgenden Abschnitten erstellt:

  • Bericht zum vorhandenen System: Ein Snapshot des vorhandenen Teradata-Systems und der vorhandenen Nutzung, einschließlich der Anzahl der Datenbanken, Schemas, Tabellen und der Gesamtgröße in TB. Außerdem werden die Schemas nach Größe aufgelistet und es wird auf eine potenzielle suboptimale Ressourcennutzung hingewiesen, z. B. Tabellen ohne Schreibvorgänge oder mit wenigen Lesevorgängen.
  • Vorschläge zur Transformation des stabilen Zustands von BigQuery: Zeigt, wie das System nach der Migration in BigQuery aussieht. Er enthält Vorschläge zur Optimierung von Arbeitslasten in BigQuery und zur Vermeidung von unnötiger Inanspruchnahme.
  • Migrationsplan: Enthält Informationen zum Migrationsaufwand selbst. Zum Beispiel zur Überführung des vorhandenen Systems in einen stabilen BigQuery-Zustand. In diesem Abschnitt werden die Anzahl der automatisch übersetzten Abfragen und die erwartete Zeit zum Verschieben der einzelnen Tabellen in BigQuery angegeben.

Weitere Informationen zu den Ergebnissen einer Migrationsbewertung finden Sie unter Looker Studio-Bericht prüfen.

Schema und Daten aus Teradata migrieren

Nachdem Sie die Ergebnisse Ihrer Migrationsbewertung geprüft haben, können Sie mit der Teradata-Migration beginnen, indem Sie BigQuery für die Migration vorbereiten und dann einen Datenübertragungsjob einrichten.

Weitere Informationen zum Teradata-Migrationsprozess, siehe Schema und Daten aus Teradata migrieren.

Migration überprüfen

Nachdem Sie Ihre Teradata-Daten zu BigQuery migriert haben, führen Sie das Datenvalidierungstool (Data Validation Tool, DVT) aus, um eine Datenvalidierung für Ihre neu migrierten BigQuery-Daten durchzuführen. Das DVT validiert verschiedene Funktionen von der Tabellen- bis zur Zeilenebene, um zu prüfen, ob Ihre migrierten Daten wie vorgesehen funktionieren. Weitere Informationen zum DVT finden Sie unter Einführung des Datenvalidierungstools für EDW-Migrationen.

Sie können auf das DVT im öffentlichen GitHub-Repository des DVT zugreifen.

Nächste Schritte