Introdução à governança de dados no BigQuery

O BigQuery tem recursos de governança integrados que simplificam a descoberta, o gerenciamento, o monitoramento, o controle e o uso dos seus dados e recursos de IA.

Administradores, gestores de dados, gerentes de governança de dados e custodiantes de dados podem usar os recursos de governança no BigQuery para fazer o seguinte:

  • Descobrir dados.
  • Selecionar dados.
  • Reúna e enriqueça metadados.
  • Gerenciar a qualidade dos dados.
  • Garanta que os dados sejam usados de forma consistente e em conformidade com as políticas organizacionais.
  • Compartilhe dados em escala e de forma segura.

Os recursos de governança do BigQuery são alimentados pelo Dataplex Universal Catalog, um inventário centralizado de todos os ativos de dados da sua organização. O Dataplex Universal Catalog contém metadados comerciais, técnicos e operacionais de todos os seus dados. Ela ajuda você a descobrir relações e semântica nos metadados aplicando inteligência artificial e aprendizado de máquina.

Com o BigLake Metastore, é possível usar vários mecanismos de processamento de dados para consultar uma única cópia de dados com um único esquema, sem duplicação. Os mecanismos de processamento de dados que podem ser usados incluem BigQuery, Apache Spark, Apache Flink e Apache Hive. Seus dados podem ser armazenados em locais como tabelas de armazenamento do BigQuery, tabelas BigLake para Apache Iceberg no BigQuery ou tabelas externas do BigLake.

O BigQuery é compatível com um ciclo de vida de dados de ponta a ponta, desde a descoberta até o uso dos dados. Os recursos de governança também estão disponíveis no Dataplex Universal Catalog.

Descoberta de dados

O BigQuery descobre dados em toda a organização no Trusted Cloud by S3NS, seja no BigQuery, Spanner, Cloud SQL, Pub/Sub ou Cloud Storage. Os metadados são extraídos e armazenados automaticamente no Dataplex Universal Catalog. Por exemplo, é possível extrair metadados de dados estruturados e não estruturados do Cloud Storage e criar automaticamente tabelas do BigLake prontas para consulta em grande escala. Isso permite que você faça análises com um mecanismo de código aberto sem duplicação de dados.

Também é possível extrair e catalogar metadados de fontes de dados de terceiros usando conectores personalizados.

O BigQuery oferece os seguintes recursos de descoberta de dados:

  • Pesquisa. Pesquise dados e recursos de IA em projetos e na organização. No BigQuery no console do Trusted Cloud , use a pesquisa semântica (prévia) para pesquisar recursos usando linguagem cotidiana. Ou encontre recursos usando a pesquisa por palavra-chave no Dataplex Universal Catalog.
  • Descoberta automática de dados do Cloud Storage. Faça uma verificação de dados em buckets do Cloud Storage para extrair e catalogar metadados. A descoberta automática cria tabelas para dados estruturados e não estruturados.
  • Importação de metadados. Importe metadados em grande escala de sistemas de terceiros para o Dataplex Universal Catalog. É possível criar conectores personalizados para extrair dados das fontes e executar pipelines de conectividade gerenciada que organizam o fluxo de trabalho de importação de metadados.
  • Exportação de metadados. Exportar metadados em escalonar horizontalmente do Dataplex Universal Catalog. É possível analisar os metadados exportados com o BigQuery ou integrá-los a aplicativos personalizados ou fluxos de trabalho de processamento programático.

Curadoria e gestão de dados

Para melhorar a capacidade de descoberta e a usabilidade dos dados, os administradores e administradores de dados podem usar o BigQuery para revisar, atualizar e analisar metadados. Os recursos de curadoria e gestão de dados do BigQuery ajudam a garantir que seus dados sejam precisos, consistentes e alinhados às políticas da sua organização.

O BigQuery oferece os seguintes recursos de gestão e tratamento de dados:

  • Glossário empresarial. Melhore o contexto, a colaboração e a pesquisa definindo a terminologia da sua organização em um glossário. Identifique administradores de dados para os termos e anexe termos aos campos de recursos de dados.
  • Insights de dados. O Gemini usa metadados para gerar perguntas em linguagem natural sobre sua tabela e as consultas SQL para respondê-las. Esses insights ajudam você a descobrir padrões, avaliar a qualidade dos dados e realizar análises estatísticas.
  • Criação de perfil de dados. Identifique características estatísticas comuns das colunas nas tabelas do BigQuery para entender e analisar seus dados com mais eficiência.
  • Qualidade dos dados. Defina e execute verificações de qualidade de dados em tabelas no BigQuery e no Cloud Storage, além de aplicar controles de dados regulares e contínuos em ambientes do BigQuery.
  • Linhagem de dados. Acompanhe como os dados se movimentam nos sistemas: de onde vêm, para onde vão e quais transformações são aplicadas a eles. O BigQuery oferece suporte ao linhagem de dados nos níveis de tabela e coluna.

Próximas etapas para curadoria e gestão de dados

A tabela abaixo descreve as próximas etapas que você pode seguir para saber mais sobre os recursos de curadoria e gestão de dados:

Nível de experiência Programa de aprendizado
Novos usuários da nuvem
Usuários experientes da nuvem

Segurança e controle de acesso

O gerenciamento de acesso aos dados é o processo de definir, aplicar e monitorar as regras e políticas que regem quem tem acesso aos dados. Com o gerenciamento de acesso, os dados só podem ser acessados pelas pessoas autorizadas.

O BigQuery oferece os seguintes recursos de segurança e controle de acesso:

  • Identity and Access Management (IAM). Com o IAM, você controla quem tem acesso aos recursos do BigQuery, como projetos, conjuntos de dados, tabelas e visualizações. É possível conceder papéis do IAM a usuários, grupos e contas de serviço. Esses papéis definem o que eles podem fazer com seus recursos.
  • Controles de acesso no nível da coluna e controles de acesso no nível da linha. Os controles de acesso no nível da coluna e da linha permitem restringir o acesso a colunas e linhas específicas em uma tabela, com base em atributos do usuário ou valores de dados. Esse controle permite que você implemente acesso refinado para ajudar a proteger dados sensíveis contra acesso não autorizado.
  • Gerenciamento da Transferência de dados. Com o VPC Service Controls, é possível criar perímetros em torno dos recursos do Trusted Cloud e controlar o acesso a eles com base nas políticas da organização.
  • Registros de auditoria. Os registros de auditoria fornecem um registro detalhado da atividade do usuário e dos eventos do sistema na sua organização. Esses registros ajudam a aplicar políticas de governança de dados e a identificar possíveis riscos de segurança.
  • Mascaramento de dados. Com o mascaramento de dados, é possível ocultar dados sensíveis em uma tabela e, ao mesmo tempo, permitir que usuários autorizados acessem os dados próximos. A mascaragem também pode ocultar dados que correspondem a padrões de dados sensíveis, protegendo contra divulgação acidental de dados.
  • Criptografia. O BigQuery criptografa automaticamente todos os dados em repouso e em trânsito, além de permitir a personalização das configurações de criptografia para atender aos seus requisitos específicos.

Próximas etapas para segurança e controle de acesso

A tabela a seguir descreve as próximas etapas que você pode seguir para saber mais sobre os recursos de controle de acesso:

Nível de experiência Programa de aprendizado
Novos usuários da nuvem
Usuários experientes da nuvem

Dados e insights compartilhados

Com o BigQuery, é possível compartilhar dados e insights em grande escala dentro e entre limites organizacionais. Ela tem uma estrutura robusta de segurança e privacidade em uma plataforma de troca de dados integrada. Com o compartilhamento do BigQuery, é possível descobrir, acessar e consumir uma biblioteca de dados selecionada por uma ampla variedade de provedores.

O BigQuery oferece os seguintes recursos de compartilhamento:

  • Compartilhe mais do que dados. É possível compartilhar uma ampla variedade de recursos de dados e IA, como conjuntos de dados, tabelas, visualizações, streams em tempo real com tópicos do Pub/Sub, procedimentos armazenados em SQL e modelos do BigQuery ML.
  • Acessar conjuntos de dados do Google. Amplie suas iniciativas de análise e ML com conjuntos de dados do Google das tendências de pesquisa, modelos do DeepMind WeatherNext, Plataforma Google Maps, Google Earth Engine e muito mais.
  • Integração com princípios de governança de dados. Os proprietários de dados mantêm o controle sobre eles e podem definir e configurar regras ou políticas para restringir o acesso e o uso.
  • Compartilhamento de dados ao vivo e sem cópia. Os dados são compartilhados no local sem necessidade de integração, movimentação ou replicação, garantindo que a análise seja baseada nas informações mais recentes. Os conjuntos de dados vinculados criados são um ponteiro ativo para o recurso compartilhado.
  • Melhorar a postura de segurança. É possível usar controles de acesso para reduzir o acesso de superprovisionamento, incluindo o suporte integrado do VPC Service Controls.
  • Aumente a visibilidade com métricas de uso do provedor. Os editores de dados podem ver e monitorar o uso de recursos compartilhados, como o número de jobs executados, o total de bytes verificados e os assinantes de cada organização.
  • Colabore em dados sensíveis com data clean rooms. As data clean rooms oferecem um ambiente de segurança aprimorada em que várias partes podem compartilhar, mesclar e analisar os próprios recursos de dados sem mover ou revelar os dados subjacentes.
  • Criado no BigQuery. É possível aproveitar a escalonabilidade e os recursos de processamento massivo do BigQuery para colaborações em grande escala.

Próximas etapas para compartilhamento

A tabela a seguir descreve as próximas etapas que você pode seguir para saber mais sobre os recursos de compartilhamento:

Nível de experiência Programa de aprendizado
Novos usuários da nuvem
  • Saiba como criar e gerenciar trocas e anúncios para começar a compartilhar dentro ou fora da sua organização.
Usuários experientes da nuvem

A seguir