Il est possible qu'une partie ou l'ensemble des informations de cette page ne s'appliquent pas au Cloud de confiance S3NS.
Le métastore BigLake est un métastore unifié, géré, sans serveur et évolutif qui connecte les données lakehouse stockées dans Cloud Storage ou BigQuery à plusieurs environnements d'exécution, y compris les environnements d'exécution Open Source (tels qu'Apache Spark et Apache Flink) et BigQuery.
Le métastore BigLake fournit une source unique de vérité pour la gestion des métadonnées provenant de plusieurs moteurs. Il est compatible avec les principaux formats de tables Open Source, tels qu'Apache Iceberg, via les tables BigLake Iceberg et les tables BigQuery standards. De plus, le métastore BigLake est compatible avec les API ouvertes et un catalogue Iceberg REST (preview).
Utilisez le tableau suivant pour déterminer où commencer votre parcours avec le metastore BigLake :
Cas d'utilisation |
Recommandation |
Le moteur Open Source doit accéder aux données dans Cloud Storage.
|
Explorez le catalogue REST Iceberg (aperçu).
|
Le moteur Open Source doit être interopérable avec BigQuery.
|
Découvrez l'intégration de BigLake Metastore aux moteurs Open Source (comme Spark) à l'aide du plug-in de catalogue Iceberg personnalisé BigQuery.
|
Avantages
BigLake Metastore offre plusieurs avantages pour la gestion et l'analyse des données :
- Architecture sans serveur Le métastore BigLake fournit une architecture sans serveur, ce qui élimine le besoin de gestion de serveur ou de cluster. Cela permet de réduire les coûts opérationnels, de simplifier le déploiement et d'adapter automatiquement la capacité en fonction de la demande.
- Interopérabilité des moteurs : Le métastore BigLake vous permet d'accéder directement aux tables dans les moteurs Open Source (tels que Spark et Flink) et BigQuery. Vous pouvez ainsi interroger les tables au format ouvert sans configuration supplémentaire. Par exemple, vous pouvez créer une table dans Spark, puis l'interroger directement dans BigQuery. Cela permet de simplifier votre workflow d'analyse et de réduire la nécessité de processus complexes de transfert ou d'ETL des données.
Expérience utilisateur unifiée : Le métastore BigLake fournit un workflow unifié pour BigQuery et les moteurs Open Source. Cette expérience unifiée vous permet de configurer un environnement Spark autohébergé ou hébergé par Dataproc via le catalogue REST Iceberg (preview), ou de configurer un environnement Spark dans un notebook BigQuery Studio pour faire la même chose.
Par exemple, dans BigQuery Studio, vous pouvez créer une table dans Spark avec un notebook BigQuery Studio.
Vous pouvez ensuite interroger la même table Spark dans la consoleTrusted Cloud .
Formats de table dans BigLake Metastore
BigLake est compatible avec plusieurs types de tables. Utilisez le tableau suivant pour choisir le format qui convient le mieux à votre cas d'utilisation :
|
Tables externes |
Tables BigLake Iceberg |
Tables BigLake Iceberg dans BigQuery |
Tables BigQuery standards |
Metastore |
Métastore externe ou autohébergé |
BigLake Metastore |
BigLake Metastore |
BigLake Metastore |
Stockage |
Cloud Storage / Amazon S3 / Azure |
Cloud Storage |
Cloud Storage |
BigQuery |
Gestion |
Client ou tiers |
Google |
Google (expérience hautement gérée) |
Google (expérience la plus gérée) |
Lecture / Écriture |
Moteurs Open Source (lecture/écriture)
BigQuery (lecture seule)
|
Moteurs Open Source (lecture/écriture)
BigQuery (lecture seule)
|
Moteurs Open Source (lecture seule avec les bibliothèques Iceberg, interopérabilité en lecture/écriture avec l'API BigQuery Storage)
BigQuery (lecture/écriture)
|
Moteurs Open Source (interopérabilité en lecture/écriture avec l'API BigQuery Storage)
BigQuery (lecture/écriture)
|
Cas d'utilisation |
Migrations, tables de préproduction pour les chargements BigQuery, autogestion
|
Lakehouse ouvert
|
Lakehouse ouvert, stockage de niveau entreprise pour l'analyse, le streaming et l'IA
|
Stockage de niveau Enterprise pour l'analyse, le streaming et l'IA
|
Différences avec BigLake Metastore (version classique)
BigLake Metastore est le metastore recommandé sur Trusted Cloud by S3NS.
Voici les principales différences entre BigLake Metastore et BigLake Metastore (classique) :
- BigLake Metastore (classique) est un service de metastore autonome distinct de BigQuery et qui n'est compatible qu'avec les tables Iceberg. Il possède un modèle de ressources en trois parties différent.
Les tables du métastore BigLake (classique) ne sont pas automatiquement détectées à partir de BigQuery.
- Les tables du metastore BigLake sont accessibles à partir de plusieurs moteurs Open Source et de BigQuery. Le metastore BigLake est compatible avec l'intégration directe à Spark, ce qui permet de réduire la redondance lorsque vous stockez des métadonnées et exécutez des jobs. Le métastore BigLake est également compatible avec le catalogue Iceberg REST (preview), qui connecte les données du lakehouse sur plusieurs environnements d'exécution.
Limites
Les limites suivantes s'appliquent aux tables du metastore BigLake :
- Vous ne pouvez pas créer ni modifier des tables de métastore BigLake avec des instructions LDD ou LMD à l'aide du moteur BigQuery. Vous pouvez modifier les tables du metastore BigLake à l'aide de l'API BigQuery (avec l'outil de ligne de commande bq ou les bibliothèques clientes), mais vous risquez d'apporter des modifications incompatibles avec le moteur externe.
- Les tables du metastore BigLake ne sont pas compatibles avec les opérations de renommage ni avec les instructions Spark SQL
ALTER TABLE ... RENAME TO
.
- Les tables BigLake Metastore sont soumises aux mêmes quotas et limites que les tables standards.
- Les performances des requêtes portant sur des tables du metastore BigLake à partir du moteur BigQuery peuvent être ralenties par rapport aux requêtes sur des données dans une table BigQuery standard. En général, les performances des requêtes pour une table BigLake Metastore sont équivalentes à celles de la lecture directe de données depuis Cloud Storage.
- La simulation d'une requête qui utilise une table de métastore BigLake peut indiquer une limite inférieure de 0 octet de données, même si des lignes sont renvoyées. Ce résultat se produit, car il est impossible de déterminer la quantité de données traitées à partir de la table tant que la requête n'est pas terminée.
L'exécution de la requête entraîne des frais pour le traitement de ces données.
- Vous ne pouvez pas référencer de table BigLake Metastore dans une requête de table générique.
- Vous ne pouvez pas utiliser la méthode
tabledata.list
pour récupérer des données à partir de tables BigLake Metastore. Vous pouvez plutôt enregistrer les résultats de la requête dans une table de destination, puis utiliser la méthode tabledata.list
sur cette table.
- Les tables BigLake Metastore ne sont pas compatibles avec le clustering.
- Les tables BigLake Metastore ne sont pas compatibles avec les noms de colonnes flexibles.
- L'affichage des statistiques de stockage de tables pour les tables BigLake Metastore n'est pas pris en charge.
Étapes suivantes
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/08/15 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Il n'y a pas l'information dont j'ai besoin","missingTheInformationINeed","thumb-down"],["Trop compliqué/Trop d'étapes","tooComplicatedTooManySteps","thumb-down"],["Obsolète","outOfDate","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Mauvais exemple/Erreur de code","samplesCodeIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/08/15 (UTC)."],[],[],null,["Introduction to BigLake metastore\n\nBigLake metastore is a unified, managed, serverless, and scalable metastore that\nconnects lakehouse data stored in Cloud Storage or BigQuery to\nmultiple runtimes, including open source runtimes (such as Apache Spark\nand Apache Flink) and BigQuery.\n\nBigLake metastore provides a single source of truth for managing metadata from\nmultiple engines. It supports key open source table formats, such as\nApache Iceberg, through BigLake Iceberg tables and\nstandard BigQuery tables. Additionally, BigLake metastore has\nsupport for open APIs and an\n[Iceberg REST catalog](/bigquery/docs/blms-rest-catalog)\n([Preview](/products#product-launch-stages)).\n\nUse the following table to help determine where to start your\nBigLake metastore journey:\n\n| **Use case** | **Recommendation** |\n|-----------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n| Open source engine needs to access data in Cloud Storage. | Explore the [Iceberg REST catalog](/bigquery/docs/blms-rest-catalog) ([Preview](/products#product-launch-stages)). |\n| Open source engine needs interoperability with BigQuery. | Explore the BigLake metastore integration with open source engines (such as [Spark](/bigquery/docs/blms-use-dataproc#connect-biglake)) using the BigQuery custom Iceberg catalog plugin. |\n\nBenefits\n\nBigLake metastore offers several advantages for data management\nand analysis:\n\n- **Serverless architecture.** BigLake metastore provides a serverless architecture, eliminating the need for server or cluster management. This helps reduce operational overhead, simplifies deployment, and allows for automatic scaling based on demand.\n- **Engine interoperability.** BigLake metastore provides you with direct table access across open source engines (such as Spark and Flink) and BigQuery, allowing you to query open-format tables without additional configuration. For example, you can create a table in Spark and then query it directly in BigQuery. This helps streamline your analytics workflow and reduces the need for complex data movement or ETL processes.\n- **Unified user experience.** BigLake metastore provides a unified workflow across BigQuery and open source engines. This unified experience means you can configure a Spark environment that's self-hosted or hosted by Dataproc through the [Iceberg REST catalog](/bigquery/docs/blms-rest-catalog) ([Preview](/products#product-launch-stages)), or you can configure a Spark environment in a BigQuery Studio notebook to do the same thing.\n\nTable formats in BigLake metastore\n\nBigLake supports several table types. Use the following table to help\nselect the format that best fits your use case:\n\n| | **External tables** | **BigLake Iceberg tables** | **BigLake Iceberg tables in BigQuery** | **Standard BigQuery tables** |\n|------------------|----------------------------------------------------------------|-------------------------------------------------------|--------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------|\n| **Metastore** | External or self-hosted metastore | BigLake metastore | BigLake metastore | BigLake metastore |\n| **Storage** | Cloud Storage / Amazon S3 / Azure | Cloud Storage | Cloud Storage | BigQuery |\n| **Management** | Customer or third party | Google | Google (highly managed experience) | Google (most managed experience) |\n| **Read / Write** | Open source engines (read/write) BigQuery (read only) | Open source engines (read/write) BigQuery (read only) | Open source engines (read only with Iceberg libraries, read/write interoperability with BigQuery Storage API) \u003cbr /\u003e BigQuery (read/write) | Open source engines (read/write interoperability with BigQuery Storage API) BigQuery (read/write) |\n| **Use cases** | Migrations, staging tables for BigQuery loads, self-management | Open lakehouse | Open lakehouse, enterprise-grade storage for analytics, streaming, and AI | Enterprise-grade storage for analytics, streaming, and AI |\n\nDifferences with BigLake metastore (classic)\n\nBigLake metastore is the recommended metastore on Google Cloud.\n\nThe core differences between BigLake metastore and BigLake metastore (classic)\ninclude the following details:\n\n- BigLake metastore (classic) is a standalone metastore service that is distinct from BigQuery and only supports Iceberg tables. It has a different three-part resource model. BigLake metastore (classic) tables aren't automatically discovered from BigQuery.\n- Tables in BigLake metastore are accessible from multiple open source engines and BigQuery. BigLake metastore supports direct integration with Spark, which helps reduce redundancy when you store metadata and run jobs. BigLake metastore also supports the [Iceberg REST catalog](/bigquery/docs/blms-rest-catalog) ([Preview](/products#product-launch-stages)), which connects lakehouse data across multiple runtimes.\n\nLimitations\n\nThe following limitations apply to tables in BigLake metastore:\n\n- You can't create or modify BigLake metastore tables with DDL or DML statements using the BigQuery engine. You can modify BigLake metastore tables using the BigQuery API (with the bq command-line tool or client libraries), but doing so risks making changes that are incompatible with the external engine.\n- BigLake metastore tables don't support [renaming operations](/bigquery/docs/managing-tables#renaming-table) or `ALTER TABLE ... RENAME TO` Spark SQL statements.\n- BigLake metastore tables are subject to the same [quotas and limits](/bigquery/quotas#standard_tables) as standard tables.\n- Query performance for BigLake metastore tables from the BigQuery engine might be slow compared to querying data in a standard BigQuery table. In general, the query performance for a BigLake metastore table should be equivalent to reading the data directly from Cloud Storage.\n- A [dry run](/bigquery/docs/running-queries#dry-run) of a query that uses a BigLake metastore table might report a lower bound of 0 bytes of data, even if rows are returned. This result occurs because the amount of data that is processed from the table can't be determined until the actual query completes. Running the query incurs a cost for processing this data.\n- You can't reference a BigLake metastore table in a [wildcard table](/bigquery/docs/querying-wildcard-tables) query.\n- You can't use the [`tabledata.list` method](/bigquery/docs/reference/rest/v2/tabledata/list) to retrieve data from BigLake metastore tables. Instead, you can save query results to a destination table, then use the `tabledata.list` method on that table.\n- BigLake metastore tables don't support [clustering](/bigquery/docs/clustered-tables).\n- BigLake metastore tables don't support [flexible column names](/bigquery/docs/schemas#flexible-column-names).\n- The display of table storage statistics for BigLake metastore tables isn't supported.\n- BigLake metastore doesn't support Iceberg views.\n\nWhat's next\n\n- [Use BigLake metastore with Dataproc](/bigquery/docs/blms-use-dataproc)\n- [Use BigLake metastore with Dataproc Serverless](/bigquery/docs/blms-use-dataproc-serverless)"]]