Crie pipelines
Este documento descreve como criar pipelines no BigQuery. Os pipelines são baseados no Dataform.
Antes de começar
-
In the Trusted Cloud console, on the project selector page, select or create a Trusted Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Trusted Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Para criar pipelines:
Code Creator (
roles/dataform.codeCreator
) -
Para editar e executar pipelines:
Editor do Dataform (
roles/dataform.editor
) Aceda à página do BigQuery.
No painel Explorador, encontre o projeto no qual ativou os recursos de código.
Clique em
Ver ações junto ao projeto e, de seguida, clique em Alterar a minha região de código predefinida.Para Região, selecione a região que quer usar para recursos de códigos.
Clique em Selecionar.
Aceda à página do BigQuery.
Na barra de separadores do painel do editor, clique na seta
junto ao sinal + e, de seguida, clique em Pipeline.Opcional: para mudar o nome do pipeline, clique no nome do pipeline e, de seguida, introduza um novo nome.
Clique em Começar e, de seguida, aceda ao separador Definições.
Na secção Autenticação, opte por autorizar o pipeline com as credenciais de utilizador da sua Conta Google ou uma conta de serviço.
- Para usar as credenciais de utilizador da sua Conta Google (Pré-visualização), selecione Executar com as minhas credenciais de utilizador.
- Para usar uma conta de serviço, selecione Executar com a conta de serviço selecionada e, de seguida, selecione uma conta de serviço.
Na secção Localização de processamento, selecione uma localização de processamento para o pipeline.
Para ativar a seleção automática de uma localização, selecione Seleção automática de localização. Esta opção seleciona uma localização com base nos conjuntos de dados referenciados no pedido. O processo de seleção é o seguinte:
- Se a sua consulta fizer referência a conjuntos de dados da mesma localização, o BigQuery usa essa localização.
- Se a sua consulta fizer referência a conjuntos de dados de duas ou mais localizações diferentes, ocorre um erro. Para ver detalhes acerca desta limitação, consulte o artigo Replicação de conjuntos de dados entre regiões.
- Se a sua consulta não fizer referência a nenhum conjunto de dados, o BigQuery usa por predefinição a
US
multirregião.
Para escolher uma região específica, selecione Região e, de seguida, escolha uma região no menu Região. Em alternativa, pode usar a
@@location
variável do sistema na sua consulta. Para mais informações, consulte o artigo Especifique localizações.Para escolher uma multirregião, selecione Multirregião e, de seguida, escolha uma multirregião no menu Multirregião.
A localização de processamento do pipeline não tem de corresponder à localização de armazenamento predefinida dos recursos de código.
Se planeia adicionar um bloco de notas ao seu pipeline, faça o seguinte na secção Opções do bloco de notas:
No campo Modelo de tempo de execução, aceite o tempo de execução do bloco de notas predefinido ou pesquise e selecione um tempo de execução existente.
- Para ver as especificações do tempo de execução predefinido, clique na seta adjacente.
- Para criar um novo tempo de execução, consulte o artigo Crie um modelo de tempo de execução.
No campo Contentor do Cloud Storage, clique em Procurar e selecione ou crie um contentor do Cloud Storage para armazenar o resultado dos blocos de notas no seu pipeline.
Siga o artigo Adicione um principal a uma política ao nível do contentor para adicionar a sua conta de serviço do Dataform personalizada como principal ao contentor do Cloud Storage que planeia usar para armazenar a saída de execuções de pipelines agendadas e conceda a função Administrador de armazenamento (
roles/storage.admin
) a este principal.Tem de conceder à conta de serviço do Dataform personalizada selecionada a função do IAM de administrador de armazenamento no contentor selecionado.
Na Trusted Cloud consola, aceda à página BigQuery.
No painel Explorador, expanda o projeto e a pasta Pipelines e, de seguida, selecione um pipeline.
Para adicionar um recurso de código, selecione uma das seguintes opções:
Consulta SQL
Clique em Adicionar tarefa e, de seguida, selecione Consulta. Pode criar uma nova consulta ou importar uma existente.
Opcional: no painel Detalhes da tarefa de consulta, no menu Executar após, selecione uma tarefa para preceder a sua consulta.
Crie uma nova consulta
Clique no menu de seta
junto a Editar consulta e selecione No contexto ou Num novo separador.Pesquise uma consulta existente.
Selecione um nome de consulta e, em seguida, prima Enter.
Clique em Guardar.
Opcional: para mudar o nome da consulta, clique no nome da consulta no painel do pipeline, clique em Editar consulta, clique no nome da consulta existente na parte superior do ecrã e, em seguida, escreva um novo nome.
Importe uma consulta existente
Clique no menu de seta
junto a Editar consulta e clique em Importar uma cópia.Pesquise uma consulta existente para importar ou selecione uma consulta existente no painel de pesquisa. Quando importa uma consulta, o original permanece inalterado porque o ficheiro de origem da consulta é copiado para o pipeline.
Clique em Editar para abrir a consulta importada.
Clique em Guardar.
Bloco de notas
Clique em Adicionar tarefa e, de seguida, selecione Bloco de notas. Pode criar um novo bloco de notas ou importar um existente. Para alterar as definições dos modelos de tempo de execução do bloco de notas, consulte as Opções do bloco de notas.
Opcional: no painel Detalhes da tarefa do bloco de notas, no menu Executar após, selecione uma tarefa que anteceda o bloco de notas.
Crie um novo bloco de notas
Clique no menu de seta
junto a Editar notebook e selecione No contexto ou Num novo separador.Pesquise um notebook existente.
Selecione um nome de bloco de notas e, em seguida, prima Enter.
Clique em Guardar.
Opcional: para mudar o nome do bloco de notas, clique no nome do bloco de notas no painel da pipeline, clique em Editar bloco de notas, clique no nome do bloco de notas existente na parte superior do ecrã e, de seguida, escreva um novo nome.
Importe um bloco de notas existente
Clique no menu de seta
junto a Editar bloco de notas e clique em Importar uma cópia.Pesquise um bloco de notas existente para importar ou selecione um bloco de notas existente no painel de pesquisa. Quando importa um bloco de notas, o original permanece inalterado porque o ficheiro de origem do bloco de notas é copiado para o pipeline.
Para abrir o bloco de notas importado, clique em Editar.
Clique em Guardar.
Preparação de dados
Clique em Adicionar tarefa e, de seguida, selecione Preparação de dados. Pode criar uma nova preparação de dados ou importar uma já existente.
Opcional: no painel Detalhes da tarefa de preparação de dados, no menu Executar após, selecione uma tarefa que anteceda a preparação de dados.
Crie uma nova preparação de dados
Clique no menu de seta
junto a Editar preparação de dados e selecione No contexto ou Num novo separador.Pesquise uma preparação de dados existente.
Selecione um nome de preparação de dados e prima Enter.
Clique em Guardar.
Opcional: para mudar o nome da preparação de dados, clique no nome da preparação de dados no painel da pipeline, clique em Editar preparação de dados, clique no nome na parte superior do ecrã e introduza um novo nome.
Importe uma preparação de dados existente
Clique no menu pendente
junto a Editar preparação de dados e clique em Importar uma cópia.Pesquise uma preparação de dados existente para importar ou selecione uma preparação de dados existente no painel de pesquisa. Quando importa uma preparação de dados, o original permanece inalterado porque o ficheiro de origem da preparação de dados é copiado para o pipeline.
Para abrir a preparação de dados importados, clique em Editar.
Clique em Guardar.
Tabela
Clique em Adicionar tarefa e, de seguida, selecione Tabela.
Introduza um nome para a tabela.
No painel Detalhes da tarefa de tabela, clique em Abrir para abrir a tarefa.
Configure a tarefa através das definições em Detalhes > Configuração ou no bloco
config
do editor de código para a tabela.Para alterações de metadados, use o separador Configuração. Este separador permite-lhe editar um valor específico no bloco
config
do editor de código, como uma string ou uma matriz, que está formatado como um objeto JavaScript. A utilização deste separador ajuda a evitar erros de sintaxe e a verificar se as definições estão corretas.Opcional: no menu Executar após, selecione uma tarefa para preceder a tabela.
Também pode definir os metadados da tarefa de pipeline no bloco
config
no editor. Para mais informações, consulte o artigo Criar tabelas.O editor valida o código e apresenta o estado da validação.
Em Detalhes > Consultas compiladas, veja o SQL compilado a partir do código SQLX.
Clique em Executar para executar o SQL no seu pipeline.
Em Resultados da consulta, inspecione a pré-visualização dos dados.
Ver
Clique em Adicionar tarefa e, de seguida, selecione Ver.
Introduza um nome para a vista.
No painel Ver detalhes da tarefa, clique em Abrir para abrir a tarefa.
Configure a tarefa através das definições em Detalhes > Configuração ou no bloco
config
do editor de código da vista.Para alterações de metadados, use o separador Configuração. Este separador permite-lhe editar um valor específico no bloco
config
do editor de código, como uma string ou uma matriz, que está formatado como um objeto JavaScript. A utilização deste separador ajuda a evitar erros de sintaxe e a verificar se as definições estão corretas.Opcional: no menu Executar após, selecione uma tarefa para preceder a visualização.
Também pode definir os metadados da tarefa de pipeline no bloco
config
no editor. Para mais informações, consulte o artigo Criar uma vista com o Dataform Core.O editor valida o código e apresenta o estado da validação.
Em Detalhes > Consultas compiladas, veja o SQL compilado a partir do código SQLX.
Clique em Executar para executar o SQL no seu pipeline.
Em Resultados da consulta, inspecione a pré-visualização dos dados.
Na Trusted Cloud consola, aceda à página BigQuery.
No painel Explorador, expanda o projeto e a pasta Pipelines e, de seguida, selecione um pipeline.
Clique na tarefa selecionada.
Para alterar a tarefa anterior, no menu Executar após, selecione uma tarefa que anteceda a sua tarefa.
Para editar o conteúdo da tarefa selecionada, clique em Editar.
No novo separador que é aberto, edite o conteúdo da tarefa e, em seguida, guarde as alterações na tarefa.
Na Trusted Cloud consola, aceda à página BigQuery.
No painel Explorador, expanda o projeto e a pasta Pipelines e, de seguida, selecione um pipeline.
Clique na tarefa selecionada.
No painel Detalhes da tarefa, clique no ícone EliminarEliminar.
Na Trusted Cloud consola, aceda à página BigQuery.
No painel Explorador, expanda o projeto e a pasta Pipelines e, de seguida, selecione um pipeline.
Clique em Partilhar e, de seguida, selecione Gerir autorizações.
Clique em Adicionar utilizador/grupo.
No campo Novos responsáveis, introduza o nome de, pelo menos, um utilizador ou um grupo.
Para Atribuir funções, selecione uma função.
Clique em Guardar.
Na Trusted Cloud consola, aceda à página BigQuery.
No painel Explorador, expanda o projeto e a pasta Pipelines e, de seguida, selecione um pipeline.
Clique em Partilhar e, de seguida, selecione Partilhar link. O URL do seu pipeline é copiado para a área de transferência do computador.
Na Trusted Cloud consola, aceda à página BigQuery.
No painel Explorador, expanda o projeto e a pasta Pipelines e, de seguida, selecione um pipeline.
Clique em Executar. Se selecionou Executar com as minhas credenciais de utilizador para a autenticação, tem de autorizar a sua Conta Google (Pré-visualização).
Opcional: para inspecionar a execução, veja as execuções manuais anteriores.
- Aceda à página da Conta Google.
- Clique em Pipelines do BigQuery.
- Clique em Remover acesso.
- Saiba mais acerca dos pipelines do BigQuery.
- Saiba como gerir pipelines.
- Saiba como agendar pipelines.
Funções necessárias para pipelines
Para receber as autorizações de que precisa para criar pipelines, peça ao seu administrador que lhe conceda as seguintes funções de IAM no projeto:
Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.
Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas.
Para mais informações sobre a IAM do Dataform, consulte o artigo Controle o acesso com a IAM.
Funções necessárias para opções de notebook
Para receber as autorizações de que
precisa para selecionar um modelo de tempo de execução nas opções do bloco de notas,
peça ao administrador para lhe conceder a função de IAM
Utilizador do tempo de execução do bloco de notas (roles/aiplatform.notebookRuntimeUser
)
no projeto.
Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.
Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas.
Se não tiver esta função, pode selecionar a especificação de tempo de execução do bloco de notas predefinida.
Defina a região predefinida para recursos de código
Se estiver a criar um recurso de código pela primeira vez, deve definir a região predefinida para recursos de código. Não é possível alterar a região de um recurso de código depois de o criar.
Todos os recursos de código no BigQuery Studio usam a mesma região predefinida. Para definir a região predefinida para recursos de código, siga estes passos:
Para ver uma lista das regiões suportadas, consulte o artigo Localizações do BigQuery Studio.
Crie um pipeline
Para criar um pipeline, siga estes passos:
Opções do bloco de notas
Adicione uma tarefa de pipeline
Para adicionar uma tarefa a um pipeline, siga estes passos:
Edite uma tarefa de pipeline
Para editar uma tarefa de pipeline, siga estes passos:
Elimine uma tarefa de pipeline
Para eliminar uma tarefa de um pipeline, siga estes passos:
Partilhe um pipeline
Para partilhar um pipeline, siga estes passos:
Partilhe um link para um pipeline
Execute uma pipeline
Para executar manualmente a versão atual de um pipeline, siga estes passos:
Autorize a sua Conta Google
Para autenticar o recurso com as credenciais de utilizador da sua Conta Google, tem de conceder manualmente autorização aos pipelines do BigQuery para obterem a chave de acesso da sua Conta Google e acederem aos dados de origem em seu nome. Pode conceder aprovação manual com a interface da caixa de diálogo do OAuth.
Só tem de conceder autorização aos pipelines do BigQuery uma vez.
Para revogar a autorização que concedeu, siga estes passos:
Se o seu pipeline contiver um bloco de notas, também tem de conceder manualmente autorização ao Colab Enterprise para obter o token de acesso da sua Conta Google e aceder aos dados de origem em seu nome. Só tem de conceder autorização uma vez. Pode revogar esta autorização na página da Conta Google.