Présentation du chargement des données
Ce document explique comment charger des données dans BigQuery. Les deux approches courantes de l'intégration de données consistent à extraire, charger et transformer (ELT) ou à extraire, transformer et charger (ETL) les données.
Pour obtenir une présentation des approches ELT et ETL, consultez Introduction au chargement, à la transformation et à l'exportation de données.
Méthodes de chargement ou d'accès aux données externes
Sur la page BigQuery, dans la boîte de dialogue Ajouter des données, vous pouvez afficher toutes les méthodes disponibles pour charger des données dans BigQuery ou y accéder. Choisissez l'une des options suivantes en fonction de votre cas d'utilisation et de vos sources de données :
Méthode de chargement | Description |
---|---|
Chargement par lot | Cette méthode convient au chargement par lot de grands volumes de données provenant de diverses sources. Pour le chargement par lot ou incrémentiel de données depuis Cloud Storage et d'autres sources de données compatibles, nous vous recommandons d'utiliser le service de transfert de données BigQuery. Le service de transfert de données BigQuery vous permet de planifier des tâches de chargement pour automatiser les pipelines de chargement de données dans BigQuery. Vous pouvez planifier des transferts de données ponctuels ou par lot à intervalles réguliers (par exemple, quotidiennement ou mensuellement). Pour vous assurer que vos données BigQuery sont toujours à jour, vous pouvez surveiller et enregistrer vos transferts. Pour obtenir la liste des sources de données compatibles avec le service de transfert de données BigQuery, consultez Sources de données compatibles. |
Charge de streaming | Cette méthode permet de charger des données en temps quasi réel à partir de systèmes de messagerie. Pour diffuser des données dans BigQuery, vous pouvez utiliser un abonnement BigQuery dans Pub/Sub. Pub/Sub peut gérer un débit élevé de chargements de données dans BigQuery. Il permet la diffusion de données en temps réel et le chargement des données à mesure qu'elles sont générées. Pour en savoir plus, consultez Abonnements BigQuery. |
Capture de données modifiées (CDC) | Cette méthode permet de répliquer des données de bases de données vers BigQuery en temps quasi réel. Datastream peut diffuser des données depuis des bases de données vers des données BigQuery avec une réplication en temps quasi réel. Datastream exploite les fonctionnalités de CDC pour suivre et répliquer les modifications au niveau des lignes de vos sources de données. Pour obtenir la liste des sources de données compatibles avec Datastream, consultez Sources. |
Fédération aux sources de données externes | Cette méthode permet d'accéder à des données externes sans les charger dans BigQuery. BigQuery permet d'accéder à certaines sources de données externes via Cloud Storage et les requêtes fédérées. L'avantage de cette méthode est que vous n'avez pas besoin de charger les données avant de les transformer pour une utilisation ultérieure. Vous pouvez effectuer la transformation en exécutant des instructions SELECT sur les données externes. |
Vous pouvez également utiliser les méthodes programmatiques suivantes pour charger les données :
Méthode de chargement | Description |
---|---|
Chargement par lot | Vous pouvez charger des données à partir de Cloud Storage ou d'un fichier local en créant une tâche de chargement. Si vos données sources changent rarement ou si vous n'avez pas besoin de résultats mis à jour en continu, les tâches de chargement peuvent être un moyen moins coûteux et moins gourmand en ressources de charger vos données dans BigQuery. Les données chargées peuvent être au format Avro, CSV, JSON, ORC ou Parquet. Pour créer le job de chargement, vous pouvez également utiliser l'instruction SQL LOAD DATA .Les systèmes Open Source populaires, tels que Spark et divers partenaires ETL, sont également compatibles avec le chargement par lots de données dans BigQuery. |
Charge de streaming | Si vous devez prendre en charge des sources de données en streaming personnalisées ou prétraiter des données avant de les diffuser avec un débit élevé dans BigQuery, utilisez Dataflow. Pour en savoir plus sur le chargement de données depuis Dataflow vers BigQuery, consultez Écrire des données depuis Dataflow vers BigQuery. Vous pouvez également utiliser directement l'API BigQuery Storage Write. |
Cloud Data Fusion peut vous aider à faciliter votre processus ETL. BigQuery fonctionne également avec des partenaires tiers qui transforment et chargent les données dans BigQuery.
BigQuery vous permet de créer des connexions externes pour interroger des données stockées en dehors de BigQuery dans des services Trusted Cloud by S3NS tels que Cloud Storage ou Spanner, ou dans des sources tierces telles qu'Amazon Web Services (AWS) ou Microsoft Azure. Ces connexions externes utilisent l'API BigQuery Connection. Pour en savoir plus, consultez Présentation des connexions.
Autres façons d'acquérir des données
Vous pouvez exécuter des requêtes sur des données sans les charger vous-même dans BigQuery. Les sections suivantes décrivent certaines alternatives.
Voici quelques-unes de ces alternatives :
Exécuter des requêtes sur des données publiques
Les ensembles de données publics sont des ensembles de données stockés dans BigQuery et partagés avec le public. Pour plus d'informations, consultez Ensembles de données publics BigQuery.
Exécuter des requêtes sur des données partagées
Pour exécuter des requêtes sur un ensemble de données BigQuery qu'une personne a partagé avec vous, consultez Présentation de BigQuery Sharing (anciennement Analytics Hub). Le partage est une plate-forme d'échange de données qui permet de partager des données.
Exécuter des requêtes avec des données de journaux
Vous pouvez exécuter des requêtes sur les journaux sans créer de tâches de chargement supplémentaires :
Cloud Logging vous permet d'acheminer les journaux vers une destination BigQuery.
L'analyse de journaux vous permet d'exécuter des requêtes qui analysent vos données de journaux.
Étapes suivantes
- Découvrez comment préparer des données avec Gemini dans BigQuery.
- En savoir plus sur la transformation de données avec Dataform
- Pour en savoir plus sur la surveillance des jobs de chargement, consultez l'explorateur de jobs administratifs et les métriques BigQuery.