Migrazione da Teradata a BigQuery: introduzione
Questo documento descrive i motivi per cui potresti eseguire la migrazione da Teradata a BigQuery, confronta le funzionalità di Teradata e BigQuery e fornisce una panoramica dei passaggi per iniziare la migrazione a BigQuery.
Perché eseguire la migrazione da Teradata a BigQuery?
Teradata è stato uno dei primi innovatori nella gestione e nell'analisi di volumi di dati sostanziali. Tuttavia, con l'evoluzione delle tue esigenze di cloud computing, potresti aver bisogno di una soluzione più moderna per l'analisi dei dati.
Se hai utilizzato Teradata in precedenza, valuta la migrazione a BigQuery per i seguenti motivi:
- Superare i vincoli della piattaforma legacy
- L'architettura convenzionale di Teradata spesso fatica a soddisfare le esigenze dell'analisi moderna, in particolare la necessità di concorrenza illimitata e prestazioni costantemente elevate per diversi workload. L'architettura serverless di BigQuery è progettata per gestire queste esigenze con il minimo sforzo.
- Adottare una strategia cloud-native
- Molte organizzazioni stanno passando strategicamente dall'infrastruttura on-premise al cloud. Questo passaggio richiede l'abbandono di soluzioni convenzionali e vincolate all'hardware come Teradata a favore di un servizio completamente gestito, scalabile e on demand come BigQuery per ridurre l'overhead operativo.
- Eseguire l'integrazione con le origini dati e l'analisi moderne
- I dati aziendali chiave risiedono sempre più spesso in origini basate sul cloud. BigQuery è integrato in modo nativo con l' Cloud de Confiance by S3NS ecosistema, fornendo un accesso continuo a queste origini e consentendo analisi avanzate, machine learning ed elaborazione dei dati in tempo reale senza le limitazioni dell'infrastruttura di Teradata.
- Ottimizzare costi e scalabilità
- Teradata spesso comporta processi di scalabilità complessi e costosi. BigQuery offre la scalabilità trasparente e automatica sia dello spazio di archiviazione sia del calcolo in modo indipendente, eliminando la necessità di una riconfigurazione manuale e fornendo un costo totale di proprietà più prevedibile e spesso inferiore.
Confronto delle funzioni
La tabella seguente confronta le funzionalità e i concetti di Teradata con le funzionalità equivalenti in BigQuery:
| Concetto di Teradata | Equivalente di BigQuery | Descrizione |
|---|---|---|
| Teradata (on-premise, cloud, ibrido) | BigQuery (piattaforma dati unificata e AI). BigQuery offre un ampio set di funzionalità aggiuntive rispetto a un data warehouse convenzionale. | BigQuery è un data warehouse cloud-native completamente gestito su Cloud de Confiance by S3NS. Teradata offre opzioni on-premise, cloud e ibride. BigQuery è serverless e disponibile su tutti i cloud come BQ Omni. |
| Strumenti Teradata (Teradata Studio, BTEQ) | Cloud de Confiance console, BigQuery Studio, strumento a riga di comando bq | Entrambi offrono interfacce per la gestione e l'interazione con il data warehouse. BigQuery Studio è basato sul web e integrato con Cloud de Confiance by S3NS e consente di scrivere SQL, Python e Apache Spark. |
| Database/schemi | Set di dati | In Teradata, i database e gli schemi vengono utilizzati per organizzare tabelle e visualizzazioni, in modo simile ai set di dati BigQuery. Tuttavia, il modo in cui vengono gestiti e utilizzati può variare. |
| Tabella | Tabella | Entrambe le piattaforme utilizzano le tabelle per archiviare i dati in righe e colonne. |
| Visualizza | Visualizza | Le visualizzazioni funzionano in modo simile in entrambe le piattaforme, fornendo un modo per creare tabelle virtuali basate su query. |
| Chiave primaria | Chiave primaria (non applicata in GoogleSQL) | BigQuery supporta le chiavi primarie non applicate in GoogleSQL. Queste sono principalmente utili per l'ottimizzazione delle query. |
| Chiave esterna | Chiave esterna (non applicata in GoogleSQL) | BigQuery supporta le chiavi esterne non applicate in GoogleSQL. Queste sono principalmente utili per l'ottimizzazione delle query. |
| Indice | Clustering, indici di ricerca, indici vettoriali (automatici o gestiti) | Teradata consente la creazione esplicita di indici. Ti consigliamo di utilizzare il clustering in BigQuery. Sebbene non siano equivalenti agli indici di database, il clustering consente di archiviare i dati ordinati su disco e di ottimizzare il recupero dei dati quando le colonne in cluster vengono utilizzate come predicati. BigQuery supporta gli indici di ricerca e gli indici vettoriali. |
| Partizionamento | Partizionamento | Entrambe le piattaforme supportano il partizionamento delle tabelle per migliorare le prestazioni delle query su tabelle di grandi dimensioni. BigQuery supporta il partizionamento solo per date e numeri interi. Per le stringhe, utilizza invece il clustering. |
| Allocazione delle risorse (in base a hardware e licenze) | Prenotazioni (basate sulla capacità), prezzi on demand (prezzi dell'analisi) | BigQuery offre modelli di determinazione dei prezzi flessibili. Le prenotazioni forniscono costi prevedibili per i workload coerenti e ad hoc utilizzando la scalabilità automatica, mentre i prezzi on demand si concentrano sugli addebiti per byte di scansione per query. |
| BTEQ, SQL Assistant, altri strumenti client | BigQuery Studio, strumento a riga di comando bq, API | BigQuery fornisce varie interfacce per l'esecuzione delle query, tra cui un editor basato sul web, uno strumento a riga di comando e API per l'accesso programmatico. |
| Registrazione/cronologia delle query | Cronologia delle query, INFORMATION_SCHEMA.JOBS |
BigQuery mantiene una cronologia delle query eseguite, che ti consente di esaminare le query precedenti, analizzare le prestazioni e risolvere i problemi. INFORMATION_SCHEMA.JOBS mantiene la cronologia di tutti i job inviati negli ultimi 6 mesi. |
| Funzionalità di sicurezza (controllo dell'accesso, crittografia) | Funzionalità di sicurezza (IAM, ACL, crittografia) | Entrambe offrono una sicurezza robusta. BigQuery utilizza Cloud de Confiance by S3NS IAM per il controllo granulare dell'accesso. |
| Controlli di rete (firewall, VPN) | Controlli di servizio VPC, accesso privato Google | BigQuery si integra con i controlli di servizio VPC per limitare l'accesso alle risorse BigQuery da reti specifiche. L'accesso privato Google ti consente di accedere a BigQuery senza utilizzare indirizzi IP pubblici. |
| Gestione di utenti e ruoli | Identity and Access Management (IAM) | BigQuery utilizza IAM per il controllo granulare dell'accesso. Puoi concedere autorizzazioni specifiche a utenti e account di servizio a livello di progetto, set di dati e tabella. |
| Concessioni e ruoli sugli oggetti | Elenchi di controllo dell'accesso (ACL) su set di dati e tabelle | BigQuery ti consente di definire gli ACL su set di dati e tabelle per controllare l'accesso a livello granulare. |
| Crittografia at-rest e in transito | Crittografia at-rest e in transito, chiavi di crittografia gestite dal cliente (CMEK), le chiavi possono essere ospitate in sistemi EKM esterni. | BigQuery cripta i dati per impostazione predefinita. Puoi anche gestire le tue chiavi di crittografia per un maggiore controllo. |
| Funzionalità di governance e conformità dei dati | Policy di governance dei dati, DLP (prevenzione della perdita di dati) | BigQuery supporta le policy di governance dei dati e DLP per aiutarti a rispettare i requisiti di sicurezza dei dati e conformità. |
| Utilità di caricamento di Teradata (ad es. FastLoad, MultiLoad), bteq | BigQuery Data Transfer Service, strumento a riga di comando bq, API | BigQuery fornisce vari metodi di caricamento dei dati. Teradata dispone di utilità di caricamento specializzate. BigQuery enfatizza la scalabilità e la velocità per importazione dati. |
| Utilità di esportazione di Teradata, bteq | Strumento a riga di comando bq, API, esportazione in Cloud Storage | BigQuery offre l'esportazione dei dati in varie destinazioni. Teradata ha i propri strumenti di esportazione. L'integrazione di BigQuery con Cloud Storage è un vantaggio fondamentale. L'API BigQuery Storage Read fornisce a qualsiasi calcolo esterno la possibilità di leggere i dati in blocco. |
| Tabelle esterne | Tabelle esterne | Entrambe supportano l'esecuzione di query sui dati in uno spazio di archiviazione esterno. BigQuery si integra bene con Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Archiviazione BLOB di Azure, Google Drive. |
| Viste materializzate | Viste materializzate | Entrambe offrono viste materializzate per le prestazioni delle query. BigQuery fornisce viste materializzate con ottimizzazione intelligente che restituiscono sempre i dati attuali e forniscono anche la riscrittura automatica delle query nelle viste materializzate, anche quando la query fa riferimento alla tabella di base. |
| Funzioni definite dall'utente (UDF) | Funzioni definite dall'utente (UDF) (SQL, JavaScript) | BigQuery supporta le UDF in SQL e JavaScript. |
| Teradata Scheduler, altri strumenti di pianificazione | Query pianificate, Managed Service for Apache Airflow, Cloud Functions, pipeline BigQuery | BigQuery si integra con i servizi di pianificazione e altri strumenti di pianificazione esterni. Cloud de Confiance by S3NS |
| Belvedere | Amministrazione di BigQuery per il monitoraggio, il controllo di integrità, l'esplorazione dei job e la gestione della capacità. | BigQuery offre una casella degli strumenti di amministrazione completa basata su UI che contiene diversi riquadri per monitorare lo stato di integrità operativo e l'utilizzo delle risorse. |
| Backup e ripristino | Clonazione del set di dati, time travel e fail safe, snapshot e clonazione delle tabelle, spazio di archiviazione regionale e multiregionale, backup e ripristino tra regioni. | BigQuery offre snapshot e time travel per il recupero dei dati. Time travel è una funzionalità che ti consente di accedere ai dati storici entro un determinato periodo di tempo. BigQuery offre anche la clonazione del set di dati, lo spazio di archiviazione regionale e multiregionale e le opzioni di backup e ripristino tra regioni. |
| Funzioni geospaziali | Funzioni geospaziali | Entrambe le piattaforme supportano i dati e le funzioni geospaziali. |
Inizia
Le sezioni seguenti riepilogano la procedura di migrazione da Teradata a BigQuery:
Esegui una valutazione della migrazione
Nella migrazione da Teradata a BigQuery, ti consigliamo di iniziare eseguendo lo strumento di valutazione della migrazione di BigQuery per valutare la fattibilità e i potenziali vantaggi del trasferimento del data warehouse da Teradata a BigQuery. Questo strumento fornisce un approccio strutturato per comprendere l'ambiente Teradata attuale e stimare l'impegno necessario per una migrazione di successo.
L'esecuzione dello strumento di valutazione della migrazione di BigQuery genera un report di valutazione che contiene le seguenti sezioni:
- Report del sistema esistente: uno snapshot del sistema e dell'utilizzo di Teradata esistente, incluso il numero di database, schemi, tabelle e la dimensione totale in TB. Elenca anche gli schemi per dimensione e indica un potenziale utilizzo non ottimale delle risorse, ad esempio tabelle senza scritture o con poche letture.
- Suggerimenti per la trasformazione dello stato stabile di BigQuery: mostra l'aspetto del sistema su BigQuery dopo la migrazione. Include suggerimenti per l'ottimizzazione dei workload su BigQuery e per evitare sprechi.
- Piano di migrazione: fornisce informazioni sull'impegno di migrazione stesso. Ad esempio, il passaggio dal sistema esistente allo stato stabile di BigQuery. Questa sezione include il conteggio delle query tradotte automaticamente e il tempo previsto per spostare ogni tabella in BigQuery.
Per ulteriori informazioni sui risultati di una valutazione della migrazione, vedi Esaminare il report di Data Studio.
Eseguire la migrazione di schema e dati da Teradata
Dopo aver esaminato i risultati della valutazione della migrazione, puoi iniziare la migrazione di Teradata preparando BigQuery per la migrazione e poi configurando un job di trasferimento dei dati.
Per ulteriori informazioni sulla procedura di migrazione di Teradata, vedi Eseguire la migrazione di schema e dati da Teradata.
Convalidare la migrazione
Dopo aver eseguito la migrazione dei dati di Teradata a BigQuery, esegui lo strumento di convalida dei dati (DVT) per eseguire una convalida dei dati sui dati di BigQuery appena migrati. Il DVT convalida varie funzioni, dal livello della tabella al livello della riga, per verificare che i dati migrati funzionino come previsto. Per ulteriori informazioni su l DVT, vedi Presentazione dello strumento di convalida dei dati per le migrazioni EDW.
Puoi accedere al DVT nel repository GitHub pubblico DVT.
Passaggi successivi
- Prova una migrazione di test da Teradata a BigQuery.