Metadaten aus Apache Hive für die Migration extrahieren
In diesem Dokument wird beschrieben, wie Sie mit dem Tool dwh-migration-dumper
die erforderlichen Metadaten extrahieren, bevor Sie eine Migration von Apache Hive-Daten oder ‑Berechtigungen ausführen.
In diesem Dokument wird die Metadatenextraktion aus den folgenden Datenquellen behandelt:
- Apache Hive
- Apache Hadoop Distributed File System (HDFS)
- Apache Ranger
- Cloudera Manager
- Apache Hive-Abfragelogs
Hinweise
Bevor Sie das Tool dwh-migration-dumper
verwenden können, müssen Sie Folgendes tun:
Java installieren
Auf dem Server, auf dem Sie das dwh-migration-dumper
-Tool ausführen möchten, muss Java 8 oder höher installiert sein. Ist dies nicht der Fall, laden Sie Java von der Java-Downloadseite herunter und installieren Sie es.
Erforderliche Berechtigungen
Das Nutzerkonto, das Sie für die Verbindung des dwh-migration-dumper
-Tools mit dem Quellsystem angeben, muss Berechtigungen zum Lesen von Metadaten aus diesem System haben.
Prüfen Sie, ob dieses Konto die entsprechende Rollenmitgliedschaft hat, um die für Ihre Plattform verfügbaren Metadatenressourcen abzufragen. Beispielsweise ist INFORMATION_SCHEMA
eine Metadatenressource, die mehrere Plattformen gemeinsam haben.
Installieren Sie das dwh-migration-dumper
-Tool.
So installieren Sie das dwh-migration-dumper
-Tool:
- Laden Sie auf dem Computer, auf dem Sie das
dwh-migration-dumper
-Tool ausführen möchten, die ZIP-Datei aus dem GitHub-Repository desdwh-migration-dumper
-Tools herunter. Laden Sie die Datei
SHA256SUMS.txt
herunter und führen Sie den folgenden Befehl aus, um die ZIP-Datei desdwh-migration-dumper
-Tools zu validieren:Bash
sha256sum --check SHA256SUMS.txt
Wenn die Bestätigung fehlschlägt, finden Sie weitere Informationen unter Fehlerbehebung.
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Ersetzen Sie
RELEASE_ZIP_FILENAME
durch den heruntergeladenen ZIP-Dateinamen desdwh-migration-dumper
-Befehlszeilen-Extraktionstools, z. B.dwh-migration-tools-v1.0.52.zip
.Das Ergebnis
True
bestätigt die erfolgreiche Prüfsummenverifizierung.Das Ergebnis
False
weist auf einen Überprüfungsfehler hin. Achten Sie darauf, dass die Prüfsumme und die ZIP-Dateien aus derselben Releaseversion heruntergeladen und im selben Verzeichnis gespeichert werden.Extrahieren Sie die ZIP-Datei. Die Binärdatei des Extraktionstools befindet sich im Unterverzeichnis
/bin
des Ordners, der durch Extrahieren der ZIP-Datei erstellt wurde.Aktualisieren Sie die Umgebungsvariable
PATH
so, dass sie den Installationspfad für das Extraktionstool enthält.
Metadaten für die Migration extrahieren
Wählen Sie eine der folgenden Optionen aus, um zu erfahren, wie Sie Metadaten für Ihre Datenquelle extrahieren:
Apache Hive
Führen Sie die Schritte im Abschnitt „Apache Hive“ unter Metadaten und Abfragelogs aus Ihrem Data Warehouse extrahieren aus, um Ihre Apache Hive-Metadaten zu extrahieren. Anschließend können Sie die Metadaten in den Cloud Storage-Bucket hochladen, der Ihre Migrationsdateien enthält.
HDFS
Führen Sie den folgenden Befehl aus, um Metadaten aus HDFS zu extrahieren. Verwenden Sie dazu das Tool dwh-migration-dumper
.
dwh-migration-dumper \
--connector hdfs \
--host HDFS-HOST \
--port HDFS-PORT \
--output gs://MIGRATION-BUCKET/hdfs-dumper-output.zip \
--assessment \
Ersetzen Sie Folgendes:
HDFS-HOST
: der Hostname des HDFS-NameNodeHDFS-PORT
: die Portnummer des HDFS-NameNode. Sie können dieses Argument überspringen, wenn Sie den8020
-Standardport verwenden.MIGRATION-BUCKET
: Der Cloud Storage-Bucket, den Sie zum Speichern der Migrationsdateien verwenden.
Mit diesem Befehl werden Metadaten aus HDFS in eine Datei mit dem Namen hdfs-dumper-output.zip
im Verzeichnis MIGRATION-BUCKET
extrahiert.
Beim Extrahieren von Metadaten aus HDFS gibt es einige bekannte Einschränkungen:
- Einige Aufgaben in diesem Connector sind optional und können fehlschlagen. In der Ausgabe wird dann ein vollständiger Stacktrace protokolliert. Solange die erforderlichen Aufgaben erfolgreich abgeschlossen wurden und die
hdfs-dumper-output.zip
generiert wurde, können Sie mit der HDFS-Migration fortfahren. - Der Extraktionsprozess kann fehlschlagen oder langsamer als erwartet ausgeführt werden, wenn die konfigurierte Threadpoolgröße zu groß ist. Wenn diese Probleme auftreten, empfehlen wir, die Threadpool-Größe mit dem Befehlszeilenargument
--thread-pool-size
zu verringern.
Apache Ranger
Führen Sie den folgenden Befehl aus, um Metadaten aus Apache Ranger mit dem Tool dwh-migration-dumper
zu extrahieren.
dwh-migration-dumper \
--connector ranger \
--host RANGER-HOST \
--port 6080 \
--user RANGER-USER \
--password RANGER-PASSWORD \
--ranger-scheme RANGER-SCHEME \
--output gs://MIGRATION-BUCKET/ranger-dumper-output.zip \
--assessment \
Ersetzen Sie Folgendes:
RANGER-HOST
: der Hostname der Apache Ranger-InstanzRANGER-USER
: Der Nutzername des Apache Ranger-NutzersRANGER-PASSWORD
: Das Passwort des Apache Ranger-Nutzers.RANGER-SCHEME
: Gibt an, ob Apache Rangerhttp
oderhttps
verwendet. Der Standardwert isthttp
.MIGRATION-BUCKET
: Der Cloud Storage-Bucket, den Sie zum Speichern der Migrationsdateien verwenden.
Sie können auch die folgenden optionalen Flags einfügen:
--kerberos-auth-for-hadoop
: Ersetzt--user
und--password
, wenn Apache Ranger durch Kerberos anstelle der einfachen Authentifizierung geschützt ist. Sie müssen den Befehlkinit
vor dem Tooldwh-migration-dumper
ausführen, um dieses Flag zu verwenden.--ranger-disable-tls-validation
: Fügen Sie dieses Flag ein, wenn das von der API verwendete HTTPS-Zertifikat selbstsigniert ist. Zum Beispiel bei Verwendung von Cloudera.
Mit diesem Befehl werden Metadaten aus Apache Ranger in eine Datei mit dem Namen ranger-dumper-output.zip
im Verzeichnis MIGRATION-BUCKET
extrahiert.
Cloudera
Führen Sie den folgenden Befehl aus, um Metadaten aus Cloudera mit dem Tool dwh-migration-dumper
zu extrahieren.
dwh-migration-dumper \
--connector cloudera-manager \
--url CLOUDERA-URL \
--user CLOUDERA-USER \
--password CLOUDERA-PASSWORD \
--output gs://MIGRATION-BUCKET/cloudera-dumper-output.zip \
--yarn-application-types APPLICATION-TYPES \
--pagination-page-size PAGE-SIZE \
--assessment \
Ersetzen Sie Folgendes:
CLOUDERA-URL
: die URL für Cloudera ManagerCLOUDERA-USER
: Der Nutzername des Cloudera-Nutzers.CLOUDERA-PASSWORD
: Das Passwort des Cloudera-NutzersMIGRATION-BUCKET
: Der Cloud Storage-Bucket, den Sie zum Speichern der Migrationsdateien verwenden.APPLICATION-TYPES
: (Optional) Liste aller vorhandenen Anwendungstypen aus Hadoop YARN. Beispiel:SPARK, MAPREDUCE
.PAGE-SIZE
: (Optional) Geben Sie an, wie viele Daten von Drittanbieterdiensten wie der Hadoop YARN API abgerufen werden. Der Standardwert ist1000
, was 1.000 Entitäten pro Anfrage entspricht.
Mit diesem Befehl werden Metadaten aus Cloudera in eine Datei mit dem Namen dwh-migration-cloudera.zip
im Verzeichnis MIGRATION-BUCKET
extrahiert.
Apache Hive-Abfragelogs
Führen Sie die Schritte im Abschnitt „Apache Hive“ unter Abfragelogs mit dem Logging-Hook hadoop-migration-assessment
extrahieren aus, um Ihre Apache Hive-Abfragelogs zu extrahieren. Anschließend können Sie die Logs in den Cloud Storage-Bucket hochladen, der Ihre Migrationsdateien enthält.
Nächste Schritte
Mit den extrahierten Metadaten aus Hadoop können Sie die folgenden Aktionen ausführen: