Présentation du chargement, de la transformation et de l'exportation de données
Ce document décrit les approches d'intégration de données permettant de charger et de transformer des données dans BigQuery à l'aide des processus ELT (extract, load, transform) ou ETL (extract, transform, load). Il décrit également l'exportation de données depuis BigQuery pour appliquer des insights dans d'autres systèmes, ce que l'on appelle l'ETL inversé.
Choisir entre ELT et ETL
Il est courant de transformer vos données avant ou après les avoir chargées dans BigQuery. Une décision fondamentale consiste à déterminer si vous souhaitez transformer les données avant de les charger dans BigQuery (approche ETL, pour "extract-transform-load") ou charger les données brutes dans BigQuery et effectuer les transformations à l'aide de BigQuery (approche ELT, pour "extract-load-transform").
Le graphique suivant présente les différentes options d'intégration de données dans BigQuery, à l'aide d'ELT ou d'ETL.
En général, nous recommandons l'approche ELT à la plupart des clients. Le workflow ELT divise l'intégration de données complexes en deux parties gérables : extraction et chargement, puis transformation. Les utilisateurs peuvent choisir parmi différentes méthodes de chargement de données en fonction de leurs besoins. Une fois leurs données chargées dans BigQuery, les utilisateurs qui connaissent SQL peuvent développer des pipelines de transformation avec des outils tels que Dataform.
Les sections suivantes décrivent chaque workflow plus en détail.
Charger et transformer des données
Il est courant de transformer vos données avant ou après les avoir chargées dans BigQuery. Les deux approches courantes de l'intégration de données, ETL et ELT, sont décrites dans les sections suivantes.
Approche d'intégration de données ELT
Avec l'approche ELT (Extract-Load-Transform), vous intégrez les données en deux étapes distinctes :
- Extraire et charger des données
- Transformer les données
Par exemple, vous pouvez extraire et charger des données à partir d'une source de fichier JSON dans une table BigQuery. Vous pouvez ensuite utiliser des pipelines pour extraire et transformer des champs dans des tables cibles.
L'approche ELT peut simplifier votre workflow d'intégration de données de différentes manières :
- Élimine le besoin d'autres outils de traitement des données
- Divise le processus d'intégration des données, souvent complexe, en deux parties gérables
- Exploite pleinement les capacités de BigQuery pour préparer, transformer et optimiser vos données à grande échelle
Extraire et charger des données
Dans l'approche d'intégration de données ELT, vous extrayez les données d'une source de données et les chargez dans BigQuery à l'aide de l'une des méthodes de chargement ou d'accès aux données externes compatibles.
Transformer des données dans BigQuery
Une fois les données chargées dans BigQuery, vous pouvez les préparer et les transformer à l'aide des outils suivants :
- Pour créer, tester, documenter et planifier de manière collaborative des pipelines de transformation de données SQL avancés, utilisez Dataform.
- Pour les workflows de transformation de données plus petits qui exécutent du code SQL, des notebooks Python ou des préparations de données selon une planification, utilisez les pipelines BigQuery.
- Pour nettoyer vos données en vue de l'analyse, utilisez la préparation des données augmentée par l'IA.
Chacun de ces outils est alimenté par l'API Dataform.
Pour en savoir plus, consultez Présentation des transformations.
Approche d'intégration de données ETL
Dans l'approche ETL (extraction, transformation et chargement), vous extrayez et transformez les données avant qu'elles n'atteignent BigQuery. Cette approche est utile si vous disposez déjà d'un processus de transformation des données ou si vous souhaitez réduire l'utilisation des ressources dans BigQuery.
Cloud Data Fusion peut vous aider à faciliter votre processus ETL. BigQuery fonctionne également avec des partenaires tiers qui transforment et chargent les données dans BigQuery.
Exporter des données
Une fois que vous avez traité et analysé les données dans BigQuery, vous pouvez exporter les résultats pour les appliquer dans d'autres systèmes. BigQuery est compatible avec les exportations suivantes :
- Exporter les résultats de requêtes vers un fichier local, Google Drive ou Google Sheets
- Exporter des tables ou des résultats de requête vers Cloud Storage, Bigtable, Spanner et Pub/Sub
Ce processus est appelé ETL inversé.
Pour en savoir plus, consultez Présentation de l'exportation de données dans BigQuery.
Étapes suivantes
- En savoir plus sur le chargement de données dans BigQuery
- En savoir plus sur la transformation des données dans BigQuery
- En savoir plus sur l'exportation de données dans BigQuery