Faça a gestão das preparações de dados
Este documento descreve como gerir a preparação de dados no BigQuery, incluindo a concessão das funções de gestão de identidades e acessos (IAM) necessárias e a gestão de metadados no Dataplex Universal Catalog.
As preparações de dados são recursos do BigQuery com tecnologia Dataform.
Antes de começar
- Certifique-se de que ativou a API Gemini para o Google Cloud.
- Para gerir metadados de preparação de dados no catálogo universal do Dataplex, certifique-se de que a API Dataplex está ativada no seu Trusted Cloud projeto.
Funções necessárias
Os utilizadores que estão a preparar os dados e as contas de serviço do Dataform que estão a executar as tarefas requerem as autorizações concedidas pelas seguintes funções de gestão de identidade e de acesso (IAM).
Obtenha acesso de utilizador para a preparação de dados
Para receber as autorizações de que precisa para preparar os dados no BigQuery, peça ao seu administrador para lhe conceder as seguintes funções de IAM:
-
Utilizador do BigQuery Studio (
roles/bigquery.studioUser
) no projeto -
Utilizador do Gemini para o Google Cloud (
roles/cloudaicompanion.user
) no projeto -
Aceda às tabelas de origem:
Visualizador de dados do BigQuery (
roles/bigquery.dataViewer
) na tabela, no conjunto de dados ou no projeto
Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.
Para mais informações sobre a IAM para conjuntos de dados no BigQuery, consulte o artigo Conceda acesso a um conjunto de dados.Também pode conseguir estas autorizações com funções personalizadas ou outras funções predefinidas.
Obtenha acesso para gerir metadados
Para receber as autorizações necessárias para gerir os metadados de preparação de dados no
Dataplex Universal Catalog, certifique-se de que tem as
funções do Dataplex Universal Catalog
necessárias e a autorização
dataform.repositories.get
.
Conceda acesso à conta de serviço do Dataform
Para garantir que a conta de serviço do Dataform tem as autorizações necessárias para executar preparações de dados no BigQuery, peça ao seu administrador para conceder à conta de serviço do Dataform as seguintes funções de IAM:
-
Aceda às tabelas de origem:
Visualizador de dados do BigQuery (
roles/bigquery.dataViewer
) na tabela, no conjunto de dados ou no projeto -
Aceder às tabelas de destino:
Editor de dados do BigQuery (
roles/bigquery.dataEditor
) na tabela, no conjunto de dados ou no projeto
A conta de serviço do Dataform pode exigir autorizações adicionais, consoante o pipeline de preparação de dados. Para mais informações, consulte o artigo Conceda acesso necessário ao Dataform.
Veja as preparações de dados existentes
Para ver uma lista das preparações de dados existentes, siga estes passos:
- Na página BigQuery, aceda ao painel Explorador.
- Expanda o seu projeto.
- Expanda a lista Preparativos de dados.
Otimize a preparação de dados processando-os de forma incremental
Para configurar a forma como os dados preparados são escritos numa tabela de destino, siga estes passos.
Na Trusted Cloud consola, aceda à página BigQuery.
No painel Explorador, selecione a preparação de dados.
Na barra de ferramentas da preparação de dados, selecione Mais > Modo de escrita.
Selecione uma das opções. Para mais informações, consulte o artigo Modo de escrita.
Clique em Guardar.
Ajude a melhorar as sugestões
Pode ajudar a melhorar as sugestões do Gemini partilhando com a Google os dados de comandos que envia para as funcionalidades em pré-visualização. Para partilhar os seus dados de comandos, siga estes passos:
- Abra o editor de preparação de dados no BigQuery.
- Na barra de ferramentas de preparação de dados, clique em definições Mais.
- Selecione Partilhar dados para melhorar o Gemini no BigQuery.
As definições de partilha de dados aplicam-se a todo o projeto e só podem ser definidas por um administrador do projeto com as autorizações de IAM serviceusage.services.enable
e serviceusage.services.list
. Para mais
informações sobre a utilização de dados no programa de testadores fidedignos, consulte o artigo
Gemini para o Trusted Cloud programa de testadores fidedignos.
Versões da preparação de dados
Pode optar por criar uma preparação de dados dentro ou fora de um repositório. O controlo de versões da preparação de dados é processado de forma diferente consoante a localização da preparação de dados.
Controlo de versões da preparação de dados nos repositórios
Os repositórios são repositórios Git que residem no BigQuery ou num fornecedor de terceiros. Pode usar espaços de trabalho em repositórios para realizar o controlo de versões nas preparações de dados. Para mais informações, consulte o artigo Use o controlo de versões com um ficheiro.
Controlo de versões da preparação de dados fora dos repositórios
As preparações de dados do BigQuery que não estão em repositórios não suportam a visualização, a comparação nem o restauro de versões de preparação de dados.
Para ver uma lista das versões de preparação de dados por ordem cronológica, siga estes passos:
- Na página BigQuery, aceda ao painel Explorador.
- Selecione a preparação de dados.
- Clique em Histórico de versões.
Transfira uma preparação de dados
Para transferir uma preparação de dados num ficheiro SQLX, siga estes passos:
Na Trusted Cloud consola, aceda à página BigQuery.
No painel Explorador, expanda o projeto e a pasta Preparativos de dados. Clique no nome da preparação de dados que quer transferir.
Clique em Transferir. A preparação de dados é guardada no formato de ficheiro SQLX, por exemplo,
NAME data preparation.dp.sqlx
.
Carregue uma preparação de dados
Para carregar uma preparação de dados a partir de um ficheiro SQLX, siga estes passos:
Na Trusted Cloud consola, aceda à página BigQuery.
No painel Explorador, expanda o seu projeto.
Aceda à pasta Preparativos de dados e clique em more_vert Menu > Carregar para preparação de dados.
Na caixa de diálogo Preparação de dados de carregamento, selecione um ficheiro para carregar ou introduza o URL da preparação de dados.
Introduza um nome para a preparação de dados.
Selecione uma localização de preparação de dados onde os recursos são geridos e armazenados.
Clique em Carregar.
Faça a gestão de metadados no catálogo universal do Dataplex
O catálogo universal do Dataplex permite-lhe armazenar e gerir metadados para preparações de dados. As preparações de dados estão disponíveis no catálogo universal do Dataplex por predefinição, sem configuração adicional.
Pode usar o catálogo universal do Dataplex para gerir preparações de dados em todas as localizações do BigQuery. A gestão das preparações de dados no catálogo universal do Dataplex está sujeita às quotas e aos limites do catálogo universal do Dataplex e aos preços do catálogo universal do Dataplex.
O catálogo universal do Dataplex obtém automaticamente os seguintes metadados das preparações de dados:
- Nome do recurso de dados
- Recurso de dados principal
- Localização do recurso de dados
- Tipo de recurso de dados
- Projeto Trusted Cloud correspondente
O catálogo universal do Dataplex regista as preparações de dados como entradas com os seguintes valores de entrada:
- Grupo de entradas do sistema
- O grupo de entradas do sistema
para preparações de dados é
@dataform
. Para ver detalhes das entradas de preparação de dados no catálogo universal do Dataplex, tem de ver o grupo de entradas do sistemadataform
. Para ver instruções sobre como ver uma lista de todas as entradas num grupo de entradas, consulte o artigo Ver detalhes de um grupo de entradas na documentação do catálogo universal do Dataplex. - Tipo de entrada do sistema
- O tipo de entrada do sistema
para preparações de dados é
dataform-code-asset
. Para ver os detalhes das preparações de dados, tem de ver o tipo de entrada do sistemadataform-code-asset
, filtrar os resultados com um filtro baseado em aspetos e definir o campotype
no aspetodataform-code-asset
comoDATA_PREPARATION
. Em seguida, selecione uma entrada da preparação de dados selecionada. Para ver instruções sobre como ver os detalhes de um tipo de entrada selecionado, consulte o artigo Ver detalhes de um tipo de entrada na documentação do catálogo universal do Dataplex. Para ver instruções sobre como ver os detalhes de uma entrada selecionada, consulte o artigo Ver detalhes de uma entrada na documentação do catálogo universal do Dataplex. - Tipo de aspeto do sistema
- O tipo de aspeto do sistema
para preparações de dados é
dataform-code-asset
. Para fornecer contexto adicional às preparações de dados no catálogo universal do Dataplex através da anotação de entradas de preparação de dados com aspetos, veja o tipo de aspetodataform-code-asset
, filtre os resultados com um filtro baseado em aspetos e defina o campotype
no aspetodataform-code-asset
comoDATA_PREPARATION
. Para ver instruções sobre como anotar entradas com aspetos, consulte o artigo Gerir aspetos e enriquecer metadados na documentação do catálogo universal do Dataplex. - Tipo
- O tipo de telas de dados é
DATA_PREPARATION
. Este tipo permite-lhe filtrar preparações de dados nodataform-code-asset
tipo de entrada do sistema e no tipo de aspetodataform-code-asset
usando aaspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION
consulta num filtro baseado em aspetos.
Para obter instruções sobre como pesquisar recursos, consulte o artigo Pesquise recursos de dados no catálogo universal do Dataplex na documentação do catálogo universal do Dataplex.
O que se segue?
- Saiba como preparar dados no BigQuery.
- Saiba como executar preparações de dados manualmente ou com um agendamento.
- Saiba como criar preparações de dados.