Présentation du chargement, de la transformation et de l'exportation de données
Ce document décrit les approches d'intégration de données permettant de charger et de transformer des données dans BigQuery à l'aide des processus d'extraction, de chargement et de transformation (ELT) ou d'extraction, de transformation et de chargement (ETL). Il décrit également l'exportation de données depuis BigQuery pour appliquer des insights dans d'autres systèmes, ce que l'on appelle l'ETL inversé.
Choisir entre ELT et ETL
Il est courant de transformer vos données avant ou après les avoir chargées dans BigQuery. Une décision fondamentale consiste à déterminer si vous souhaitez transformer les données avant de les charger dans BigQuery (approche d'extraction, de transformation et de chargement ou ETL) ou charger les données brutes dans BigQuery et effectuer des transformations à l'aide de BigQuery (approche d'extraction, de chargement et de transformation ou ELT).
Le graphique suivant présente les différentes options d'intégration de données dans BigQuery, à l'aide d'ELT ou d'ETL.
En général, nous recommandons l'approche ELT à la plupart des clients. Le workflow ELT divise l'intégration complexe des données en deux parties gérables : l'extraction et le chargement, puis la transformation. Les utilisateurs peuvent choisir parmi différentes méthodes de chargement de données adaptées à leurs besoins. Une fois leurs données chargées dans BigQuery, les utilisateurs qui connaissent SQL peuvent développer des pipelines de transformation avec des outils tels que Dataform.
Les sections suivantes décrivent chaque workflow plus en détail.
Charger et transformer des données
Il est courant de transformer vos données avant ou après les avoir chargées dans BigQuery. Les deux approches courantes d'intégration de données, ETL et ELT, sont décrites dans les sections suivantes.
Approche d'intégration de données ELT
Avec l'approche d'extraction, de chargement et de transformation (ELT), vous effectuez l'intégration des données en deux étapes distinctes :
- Extraire et charger des données
- Transformer les données
Par exemple, vous pouvez extraire et charger des données d'une source de fichier JSON dans une table BigQuery. Ensuite, vous pouvez utiliser des pipelines pour extraire et transformer des champs dans des tables cibles.
L'approche ELT peut simplifier votre workflow d'intégration de données de plusieurs manières :
- Élimine le besoin d'autres outils de traitement des données
- Divise le processus d'intégration de données souvent complexe en deux parties gérables
- Utilise pleinement les fonctionnalités de BigQuery pour préparer, transformer et optimiser vos données à grande échelle
Extraire et charger des données
Dans l'approche d'intégration de données ELT, vous extrayez des données d'une source de données et les chargez dans BigQuery à l'aide de l'une des méthodes compatibles de chargement ou d'accès à des données externes.
Transformer des données dans BigQuery
Après avoir chargé les données dans BigQuery, vous pouvez les préparer et les transformer à l'aide des outils suivants :
- Pour créer, tester, documenter et planifier de manière collaborative des pipelines avancés de transformation de données SQL , utilisez Dataform.
- Pour les workflows de transformation de données plus petits qui exécutent du code SQL, des notebooks Python ou des préparations de données selon une planification, utilisez les pipelines BigQuery.
- Pour nettoyer vos données à des fins d'analyse, utilisez la préparation de données augmentée par l'IA .
Chacun de ces outils est alimenté par l' API Dataform.
Pour en savoir plus, consultez Présentation des transformations.
Approche d'intégration de données ETL
Dans l'approche d'extraction, de transformation et de chargement (ETL), vous extrayez et transformez les données avant qu'elles n'atteignent BigQuery. Cette approche est utile si vous disposez déjà d'un processus de transformation des données ou si vous souhaitez réduire l'utilisation des ressources dans BigQuery.
Cloud Data Fusion peut vous aider à faciliter votre processus ETL. BigQuery fonctionne également avec des partenaires tiers qui transforment et chargent des données dans BigQuery.
Exporter des données
Après avoir traité et analysé des données dans BigQuery, vous pouvez exporter les résultats pour les appliquer dans d'autres systèmes. BigQuery est compatible avec les exportations suivantes :
- Exporter les résultats de requêtes vers un fichier local, Google Drive ou Google Sheets
- Exporter des tables ou des résultats de requêtes vers Cloud Storage, Bigtable, Spanner, AlloyDB for PostgreSQL et Pub/Sub
Ce processus est appelé ETL inversé.
Pour en savoir plus, consultez Présentation de l'exportation de données dans BigQuery.
Étape suivante
- En savoir plus sur le chargement de données dans BigQuery.
- En savoir plus sur la transformation de données dans BigQuery.
- En savoir plus sur l'exportation de données dans BigQuery.