Algumas ou todas as informações nesta página podem não se aplicar à nuvem confiável da S3NS.
O metastore do BigLake é unificado, gerenciado, sem servidor e escalonável. Ele conecta dados do lakehouse armazenados no Cloud Storage ou no BigQuery a vários ambientes de execução, incluindo ambientes de execução de código aberto (como Apache Spark e Apache Flink) e o BigQuery.
O metastore do BigLake oferece uma única fonte de verdade para gerenciar metadados de
vários mecanismos. Ele oferece suporte a formatos de tabela de código aberto importantes, como o Apache Iceberg, usando tabelas do BigLake Iceberg e tabelas padrão do BigQuery. Além disso, o metastore do BigLake tem suporte para APIs abertas e um catálogo REST do Iceberg (prévia).
Use a tabela a seguir para determinar onde começar sua jornada no BigLake Metastore:
Caso de uso |
Recomendação |
O mecanismo de código aberto precisa acessar dados no Cloud Storage.
|
Conheça o catálogo REST do Iceberg (prévia).
|
O mecanismo de código aberto precisa de interoperabilidade com o BigQuery.
|
Confira a integração do metastore do BigLake com mecanismos de código aberto (como o Spark) usando o plug-in de catálogo personalizado do Iceberg do BigQuery.
|
Vantagens
O metastore do BigLake oferece várias vantagens para gerenciamento e análise de dados:
- Arquitetura sem servidor. O metastore do BigLake oferece uma arquitetura sem servidor, eliminando a necessidade de gerenciamento de servidores ou clusters. Isso ajuda a reduzir a sobrecarga operacional, simplifica a implantação e permite o escalonamento automático com base na demanda.
- Interoperabilidade do mecanismo. O metastore do BigLake oferece acesso direto a tabelas em mecanismos de código aberto (como Spark e Flink) e no BigQuery, permitindo que você consulte tabelas de formato aberto sem configuração adicional. Por exemplo, é possível criar uma tabela no Spark e consultá-la diretamente no BigQuery. Isso ajuda a simplificar seu fluxo de trabalho de análise e reduz a necessidade de processos complexos de movimentação de dados ou ETL.
Experiência do usuário unificada. O metastore do BigLake oferece um fluxo de trabalho unificado no BigQuery e em mecanismos de código aberto. Essa experiência unificada significa que você pode configurar um ambiente do Spark autohospedado ou hospedado pelo Dataproc usando o catálogo REST do Iceberg (pré-lançamento) ou configurar um ambiente do Spark em um notebook do BigQuery Studio para fazer a mesma coisa.
Por exemplo, no BigQuery Studio, é possível criar uma tabela no Spark com um notebook do BigQuery Studio.
Em seguida, é possível consultar a mesma tabela do Spark no
console doTrusted Cloud .
Formatos de tabela no BigLake Metastore
O BigLake é compatível com vários tipos de tabelas. Use a tabela a seguir para ajudar a selecionar o formato mais adequado ao seu caso de uso:
|
Tabelas externas |
Tabelas do BigLake Iceberg |
Tabelas do BigLake Iceberg no BigQuery |
Tabelas padrão do BigQuery |
Metastore |
Metastore externa ou auto-hospedada |
Metastore do BigLake |
Metastore do BigLake |
Metastore do BigLake |
Armazenamento |
Cloud Storage / Amazon S3 / Azure |
Cloud Storage |
Cloud Storage |
BigQuery |
Gerenciamento |
Cliente ou terceiros |
Google |
Google (experiência altamente gerenciada) |
Google (experiência mais gerenciada) |
Leitura / gravação |
Mecanismos de código aberto (leitura/gravação)
BigQuery (somente leitura)
|
Mecanismos de código aberto (leitura/gravação)
BigQuery (somente leitura)
|
Mecanismos de código aberto (somente leitura com bibliotecas do Iceberg, interoperabilidade de leitura/gravação com a API BigQuery Storage)
BigQuery (leitura/gravação)
|
Mecanismos de código aberto (interoperabilidade de leitura/gravação com a API BigQuery Storage)
BigQuery (leitura/gravação)
|
Use cases |
Migrações, tabelas de teste para cargas do BigQuery e autogestão
|
Open lakehouse
|
Lakehouse aberto, armazenamento de nível empresarial para análises, streaming e IA
|
Armazenamento de nível empresarial para análises, streaming e IA
|
Diferenças com o BigLake Metastore (clássico)
O metastore do BigLake é o recomendado no Trusted Cloud by S3NS.
As principais diferenças entre o BigLake Metastore e o BigLake Metastore (clássico) incluem os seguintes detalhes:
- O metastore do BigLake (clássico) é um serviço independente que é diferente do BigQuery e só oferece suporte a tabelas do Iceberg. Ele tem um modelo de recurso de três partes diferente.
As tabelas da metastore do BigLake (clássico) não são descobertas automaticamente no BigQuery.
- As tabelas no metastore do BigLake podem ser acessadas de vários mecanismos de código aberto
e do BigQuery. O BigLake Metastore oferece suporte à integração direta com o Spark, o que ajuda a reduzir a redundância ao armazenar metadados e executar jobs. O BigLake Metastore também é compatível com o
catálogo REST do Iceberg
(versão prévia), que conecta dados do lakehouse
em vários tempos de execução.
Limitações
As seguintes limitações se aplicam às tabelas no BigLake Metastore:
- Não é possível criar ou modificar tabelas do metastore do BigLake com instruções DDL ou DML usando o mecanismo do BigQuery. É possível modificar as tabelas de metastore do BigLake usando a API BigQuery (com a ferramenta de linha de comando bq ou bibliotecas de cliente), mas isso pode causar mudanças incompatíveis com o mecanismo externo.
- As tabelas do metastore do BigLake não são compatíveis com operações de renomeação ou instruções
ALTER TABLE ... RENAME TO
do Spark SQL.
- As tabelas do metastore do BigLake estão sujeitas às mesmas cotas e limites das tabelas padrão.
- O desempenho da consulta para tabelas de metastore do BigLake no
mecanismo do BigQuery pode ser lento em comparação com a consulta de dados em uma
tabela padrão do BigQuery. Em geral, o desempenho da consulta em
uma tabela do metastore do BigLake precisa ser equivalente à leitura dos dados diretamente
do Cloud Storage.
- Uma simulação de uma consulta que usa uma tabela de metastore do BigLake pode relatar um limite inferior de 0 bytes de dados, mesmo que as linhas sejam retornadas. Isso acontece porque a quantidade de dados processados da tabela não pode ser determinada até que a consulta real seja concluída.
A execução da consulta gera um custo para o tratamento desses dados.
- Não é possível referenciar uma tabela do metastore do BigLake em uma consulta de tabela curinga.
- Não é possível usar o
método
tabledata.list
para
recuperar dados das tabelas do metastore do BigLake. Em vez disso, salve os resultados da consulta em uma tabela de destino e use o método tabledata.list
nessa tabela.
- As tabelas do metastore do BigLake não são compatíveis com clustering.
- As tabelas do metastore do BigLake não são compatíveis com
nomes de colunas flexíveis.
- A exibição de estatísticas de armazenamento de tabelas do metastore do BigLake não é compatível.
A seguir
Exceto em caso de indicação contrária, o conteúdo desta página é licenciado de acordo com a Licença de atribuição 4.0 do Creative Commons, e as amostras de código são licenciadas de acordo com a Licença Apache 2.0. Para mais detalhes, consulte as políticas do site do Google Developers. Java é uma marca registrada da Oracle e/ou afiliadas.
Última atualização 2025-08-17 UTC.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Não contém as informações de que eu preciso","missingTheInformationINeed","thumb-down"],["Muito complicado / etapas demais","tooComplicatedTooManySteps","thumb-down"],["Desatualizado","outOfDate","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Problema com as amostras / o código","samplesCodeIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-08-17 UTC."],[],[],null,["Introduction to BigLake metastore\n\nBigLake metastore is a unified, managed, serverless, and scalable metastore that\nconnects lakehouse data stored in Cloud Storage or BigQuery to\nmultiple runtimes, including open source runtimes (such as Apache Spark\nand Apache Flink) and BigQuery.\n\nBigLake metastore provides a single source of truth for managing metadata from\nmultiple engines. It supports key open source table formats, such as\nApache Iceberg, through BigLake Iceberg tables and\nstandard BigQuery tables. Additionally, BigLake metastore has\nsupport for open APIs and an\n[Iceberg REST catalog](/bigquery/docs/blms-rest-catalog)\n([Preview](/products#product-launch-stages)).\n\nUse the following table to help determine where to start your\nBigLake metastore journey:\n\n| **Use case** | **Recommendation** |\n|-----------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n| Open source engine needs to access data in Cloud Storage. | Explore the [Iceberg REST catalog](/bigquery/docs/blms-rest-catalog) ([Preview](/products#product-launch-stages)). |\n| Open source engine needs interoperability with BigQuery. | Explore the BigLake metastore integration with open source engines (such as [Spark](/bigquery/docs/blms-use-dataproc#connect-biglake)) using the BigQuery custom Iceberg catalog plugin. |\n\nBenefits\n\nBigLake metastore offers several advantages for data management\nand analysis:\n\n- **Serverless architecture.** BigLake metastore provides a serverless architecture, eliminating the need for server or cluster management. This helps reduce operational overhead, simplifies deployment, and allows for automatic scaling based on demand.\n- **Engine interoperability.** BigLake metastore provides you with direct table access across open source engines (such as Spark and Flink) and BigQuery, allowing you to query open-format tables without additional configuration. For example, you can create a table in Spark and then query it directly in BigQuery. This helps streamline your analytics workflow and reduces the need for complex data movement or ETL processes.\n- **Unified user experience.** BigLake metastore provides a unified workflow across BigQuery and open source engines. This unified experience means you can configure a Spark environment that's self-hosted or hosted by Dataproc through the [Iceberg REST catalog](/bigquery/docs/blms-rest-catalog) ([Preview](/products#product-launch-stages)), or you can configure a Spark environment in a BigQuery Studio notebook to do the same thing.\n\nTable formats in BigLake metastore\n\nBigLake supports several table types. Use the following table to help\nselect the format that best fits your use case:\n\n| | **External tables** | **BigLake Iceberg tables** | **BigLake Iceberg tables in BigQuery** | **Standard BigQuery tables** |\n|------------------|----------------------------------------------------------------|-------------------------------------------------------|--------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------|\n| **Metastore** | External or self-hosted metastore | BigLake metastore | BigLake metastore | BigLake metastore |\n| **Storage** | Cloud Storage / Amazon S3 / Azure | Cloud Storage | Cloud Storage | BigQuery |\n| **Management** | Customer or third party | Google | Google (highly managed experience) | Google (most managed experience) |\n| **Read / Write** | Open source engines (read/write) BigQuery (read only) | Open source engines (read/write) BigQuery (read only) | Open source engines (read only with Iceberg libraries, read/write interoperability with BigQuery Storage API) \u003cbr /\u003e BigQuery (read/write) | Open source engines (read/write interoperability with BigQuery Storage API) BigQuery (read/write) |\n| **Use cases** | Migrations, staging tables for BigQuery loads, self-management | Open lakehouse | Open lakehouse, enterprise-grade storage for analytics, streaming, and AI | Enterprise-grade storage for analytics, streaming, and AI |\n\nDifferences with BigLake metastore (classic)\n\nBigLake metastore is the recommended metastore on Google Cloud.\n\nThe core differences between BigLake metastore and BigLake metastore (classic)\ninclude the following details:\n\n- BigLake metastore (classic) is a standalone metastore service that is distinct from BigQuery and only supports Iceberg tables. It has a different three-part resource model. BigLake metastore (classic) tables aren't automatically discovered from BigQuery.\n- Tables in BigLake metastore are accessible from multiple open source engines and BigQuery. BigLake metastore supports direct integration with Spark, which helps reduce redundancy when you store metadata and run jobs. BigLake metastore also supports the [Iceberg REST catalog](/bigquery/docs/blms-rest-catalog) ([Preview](/products#product-launch-stages)), which connects lakehouse data across multiple runtimes.\n\nLimitations\n\nThe following limitations apply to tables in BigLake metastore:\n\n- You can't create or modify BigLake metastore tables with DDL or DML statements using the BigQuery engine. You can modify BigLake metastore tables using the BigQuery API (with the bq command-line tool or client libraries), but doing so risks making changes that are incompatible with the external engine.\n- BigLake metastore tables don't support [renaming operations](/bigquery/docs/managing-tables#renaming-table) or `ALTER TABLE ... RENAME TO` Spark SQL statements.\n- BigLake metastore tables are subject to the same [quotas and limits](/bigquery/quotas#standard_tables) as standard tables.\n- Query performance for BigLake metastore tables from the BigQuery engine might be slow compared to querying data in a standard BigQuery table. In general, the query performance for a BigLake metastore table should be equivalent to reading the data directly from Cloud Storage.\n- A [dry run](/bigquery/docs/running-queries#dry-run) of a query that uses a BigLake metastore table might report a lower bound of 0 bytes of data, even if rows are returned. This result occurs because the amount of data that is processed from the table can't be determined until the actual query completes. Running the query incurs a cost for processing this data.\n- You can't reference a BigLake metastore table in a [wildcard table](/bigquery/docs/querying-wildcard-tables) query.\n- You can't use the [`tabledata.list` method](/bigquery/docs/reference/rest/v2/tabledata/list) to retrieve data from BigLake metastore tables. Instead, you can save query results to a destination table, then use the `tabledata.list` method on that table.\n- BigLake metastore tables don't support [clustering](/bigquery/docs/clustered-tables).\n- BigLake metastore tables don't support [flexible column names](/bigquery/docs/schemas#flexible-column-names).\n- The display of table storage statistics for BigLake metastore tables isn't supported.\n- BigLake metastore doesn't support Iceberg views.\n\nWhat's next\n\n- [Use BigLake metastore with Dataproc](/bigquery/docs/blms-use-dataproc)\n- [Use BigLake metastore with Dataproc Serverless](/bigquery/docs/blms-use-dataproc-serverless)"]]