Crie pipelines

Este documento descreve como criar pipelines no BigQuery. Os pipelines são baseados no Dataform.

Antes de começar

  1. In the Trusted Cloud console, on the project selector page, select or create a Trusted Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  2. Verify that billing is enabled for your Trusted Cloud project.

  3. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  4. Funções necessárias para pipelines

    Para receber as autorizações de que precisa para criar pipelines, peça ao seu administrador que lhe conceda as seguintes funções de IAM no projeto:

    Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.

    Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas.

    Para mais informações sobre a IAM do Dataform, consulte o artigo Controle o acesso com a IAM.

    Funções necessárias para opções de notebook

    Para receber as autorizações de que precisa para selecionar um modelo de tempo de execução nas opções do bloco de notas, peça ao administrador para lhe conceder a função de IAM Utilizador do tempo de execução do bloco de notas (roles/aiplatform.notebookRuntimeUser) no projeto. Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.

    Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas.

    Se não tiver esta função, pode selecionar a especificação de tempo de execução do bloco de notas predefinida.

    Defina a região predefinida para recursos de código

    Se estiver a criar um recurso de código pela primeira vez, deve definir a região predefinida para recursos de código. Não é possível alterar a região de um recurso de código depois de o criar.

    Todos os recursos de código no BigQuery Studio usam a mesma região predefinida. Para definir a região predefinida para recursos de código, siga estes passos:

    1. Aceda à página do BigQuery.

      Aceda ao BigQuery

    2. No painel Explorador, encontre o projeto no qual ativou os recursos de código.

    3. Clique em Ver ações junto ao projeto e, de seguida, clique em Alterar a minha região de código predefinida.

    4. Para Região, selecione a região que quer usar para recursos de códigos.

    5. Clique em Selecionar.

    Para ver uma lista das regiões suportadas, consulte o artigo Localizações do BigQuery Studio.

    Crie um pipeline

    Para criar um pipeline, siga estes passos:

    1. Aceda à página do BigQuery.

      Aceda ao BigQuery

    2. Na barra de separadores do painel do editor, clique na seta junto ao sinal + e, de seguida, clique em Pipeline.

    3. Opcional: para mudar o nome do pipeline, clique no nome do pipeline e, de seguida, introduza um novo nome.

    4. Clique em Começar e, de seguida, aceda ao separador Definições.

    5. Na secção Autenticação, opte por autorizar o pipeline com as credenciais de utilizador da sua Conta Google ou uma conta de serviço.

      • Para usar as credenciais de utilizador da sua Conta Google (Pré-visualização), selecione Executar com as minhas credenciais de utilizador.
      • Para usar uma conta de serviço, selecione Executar com a conta de serviço selecionada e, de seguida, selecione uma conta de serviço.
    6. Na secção Localização de processamento, selecione uma localização de processamento para o pipeline.

      • Para ativar a seleção automática de uma localização, selecione Seleção automática de localização. Esta opção seleciona uma localização com base nos conjuntos de dados referenciados no pedido. O processo de seleção é o seguinte:

        • Se a sua consulta fizer referência a conjuntos de dados da mesma localização, o BigQuery usa essa localização.
        • Se a sua consulta fizer referência a conjuntos de dados de duas ou mais localizações diferentes, ocorre um erro. Para ver detalhes acerca desta limitação, consulte o artigo Replicação de conjuntos de dados entre regiões.
        • Se a sua consulta não fizer referência a nenhum conjunto de dados, o BigQuery usa por predefinição a US multirregião.
      • Para escolher uma região específica, selecione Região e, de seguida, escolha uma região no menu Região. Em alternativa, pode usar a @@location variável do sistema na sua consulta. Para mais informações, consulte o artigo Especifique localizações.

      • Para escolher uma multirregião, selecione Multirregião e, de seguida, escolha uma multirregião no menu Multirregião.

      A localização de processamento do pipeline não tem de corresponder à localização de armazenamento predefinida dos recursos de código.

    Opções do bloco de notas

    1. Se planeia adicionar um bloco de notas ao seu pipeline, faça o seguinte na secção Opções do bloco de notas:

      1. No campo Modelo de tempo de execução, aceite o tempo de execução do bloco de notas predefinido ou pesquise e selecione um tempo de execução existente.

        • Para ver as especificações do tempo de execução predefinido, clique na seta adjacente.
        • Para criar um novo tempo de execução, consulte o artigo Crie um modelo de tempo de execução.
      2. No campo Contentor do Cloud Storage, clique em Procurar e selecione ou crie um contentor do Cloud Storage para armazenar o resultado dos blocos de notas no seu pipeline.

      3. Siga o artigo Adicione um principal a uma política ao nível do contentor para adicionar a sua conta de serviço do Dataform personalizada como principal ao contentor do Cloud Storage que planeia usar para armazenar a saída de execuções de pipelines agendadas e conceda a função Administrador de armazenamento (roles/storage.admin) a este principal.

        Tem de conceder à conta de serviço do Dataform personalizada selecionada a função do IAM de administrador de armazenamento no contentor selecionado.

    Adicione uma tarefa de pipeline

    Para adicionar uma tarefa a um pipeline, siga estes passos:

    1. Na Trusted Cloud consola, aceda à página BigQuery.

      Aceda ao BigQuery

    2. No painel Explorador, expanda o projeto e a pasta Pipelines e, de seguida, selecione um pipeline.

    3. Para adicionar um recurso de código, selecione uma das seguintes opções:

      Consulta SQL

      1. Clique em Adicionar tarefa e, de seguida, selecione Consulta. Pode criar uma nova consulta ou importar uma existente.

      2. Opcional: no painel Detalhes da tarefa de consulta, no menu Executar após, selecione uma tarefa para preceder a sua consulta.

      Crie uma nova consulta

      1. Clique no menu de seta junto a Editar consulta e selecione No contexto ou Num novo separador.

      2. Pesquise uma consulta existente.

      3. Selecione um nome de consulta e, em seguida, prima Enter.

      4. Clique em Guardar.

      5. Opcional: para mudar o nome da consulta, clique no nome da consulta no painel do pipeline, clique em Editar consulta, clique no nome da consulta existente na parte superior do ecrã e, em seguida, escreva um novo nome.

      Importe uma consulta existente

      1. Clique no menu de seta junto a Editar consulta e clique em Importar uma cópia.

      2. Pesquise uma consulta existente para importar ou selecione uma consulta existente no painel de pesquisa. Quando importa uma consulta, o original permanece inalterado porque o ficheiro de origem da consulta é copiado para o pipeline.

      3. Clique em Editar para abrir a consulta importada.

      4. Clique em Guardar.

      Bloco de notas

      1. Clique em Adicionar tarefa e, de seguida, selecione Bloco de notas. Pode criar um novo bloco de notas ou importar um existente. Para alterar as definições dos modelos de tempo de execução do bloco de notas, consulte as Opções do bloco de notas.

      2. Opcional: no painel Detalhes da tarefa do bloco de notas, no menu Executar após, selecione uma tarefa que anteceda o bloco de notas.

      Crie um novo bloco de notas

      1. Clique no menu de seta junto a Editar notebook e selecione No contexto ou Num novo separador.

      2. Pesquise um notebook existente.

      3. Selecione um nome de bloco de notas e, em seguida, prima Enter.

      4. Clique em Guardar.

      5. Opcional: para mudar o nome do bloco de notas, clique no nome do bloco de notas no painel da pipeline, clique em Editar bloco de notas, clique no nome do bloco de notas existente na parte superior do ecrã e, de seguida, escreva um novo nome.

      Importe um bloco de notas existente

      1. Clique no menu de seta junto a Editar bloco de notas e clique em Importar uma cópia.

      2. Pesquise um bloco de notas existente para importar ou selecione um bloco de notas existente no painel de pesquisa. Quando importa um bloco de notas, o original permanece inalterado porque o ficheiro de origem do bloco de notas é copiado para o pipeline.

      3. Para abrir o bloco de notas importado, clique em Editar.

      4. Clique em Guardar.

      Preparação de dados

      1. Clique em Adicionar tarefa e, de seguida, selecione Preparação de dados. Pode criar uma nova preparação de dados ou importar uma já existente.

      2. Opcional: no painel Detalhes da tarefa de preparação de dados, no menu Executar após, selecione uma tarefa que anteceda a preparação de dados.

      Crie uma nova preparação de dados

      1. Clique no menu de seta junto a Editar preparação de dados e selecione No contexto ou Num novo separador.

      2. Pesquise uma preparação de dados existente.

      3. Selecione um nome de preparação de dados e prima Enter.

      4. Clique em Guardar.

      5. Opcional: para mudar o nome da preparação de dados, clique no nome da preparação de dados no painel da pipeline, clique em Editar preparação de dados, clique no nome na parte superior do ecrã e introduza um novo nome.

      Importe uma preparação de dados existente

      1. Clique no menu pendente junto a Editar preparação de dados e clique em Importar uma cópia.

      2. Pesquise uma preparação de dados existente para importar ou selecione uma preparação de dados existente no painel de pesquisa. Quando importa uma preparação de dados, o original permanece inalterado porque o ficheiro de origem da preparação de dados é copiado para o pipeline.

      3. Para abrir a preparação de dados importados, clique em Editar.

      4. Clique em Guardar.

      Tabela

      1. Clique em Adicionar tarefa e, de seguida, selecione Tabela.

      2. Introduza um nome para a tabela.

      3. No painel Detalhes da tarefa de tabela, clique em Abrir para abrir a tarefa.

      4. Configure a tarefa através das definições em Detalhes > Configuração ou no bloco config do editor de código para a tabela.

        Para alterações de metadados, use o separador Configuração. Este separador permite-lhe editar um valor específico no bloco config do editor de código, como uma string ou uma matriz, que está formatado como um objeto JavaScript. A utilização deste separador ajuda a evitar erros de sintaxe e a verificar se as definições estão corretas.

        Opcional: no menu Executar após, selecione uma tarefa para preceder a tabela.

        Também pode definir os metadados da tarefa de pipeline no bloco config no editor. Para mais informações, consulte o artigo Criar tabelas.

        O editor valida o código e apresenta o estado da validação.

      5. Em Detalhes > Consultas compiladas, veja o SQL compilado a partir do código SQLX.

      6. Clique em Executar para executar o SQL no seu pipeline.

      7. Em Resultados da consulta, inspecione a pré-visualização dos dados.

      Ver

      1. Clique em Adicionar tarefa e, de seguida, selecione Ver.

      2. Introduza um nome para a vista.

      3. No painel Ver detalhes da tarefa, clique em Abrir para abrir a tarefa.

      4. Configure a tarefa através das definições em Detalhes > Configuração ou no bloco config do editor de código da vista.

        Para alterações de metadados, use o separador Configuração. Este separador permite-lhe editar um valor específico no bloco config do editor de código, como uma string ou uma matriz, que está formatado como um objeto JavaScript. A utilização deste separador ajuda a evitar erros de sintaxe e a verificar se as definições estão corretas.

        Opcional: no menu Executar após, selecione uma tarefa para preceder a visualização.

        Também pode definir os metadados da tarefa de pipeline no bloco config no editor. Para mais informações, consulte o artigo Criar uma vista com o Dataform Core.

        O editor valida o código e apresenta o estado da validação.

      5. Em Detalhes > Consultas compiladas, veja o SQL compilado a partir do código SQLX.

      6. Clique em Executar para executar o SQL no seu pipeline.

      7. Em Resultados da consulta, inspecione a pré-visualização dos dados.

    Edite uma tarefa de pipeline

    Para editar uma tarefa de pipeline, siga estes passos:

    1. Na Trusted Cloud consola, aceda à página BigQuery.

      Aceda ao BigQuery

    2. No painel Explorador, expanda o projeto e a pasta Pipelines e, de seguida, selecione um pipeline.

    3. Clique na tarefa selecionada.

    4. Para alterar a tarefa anterior, no menu Executar após, selecione uma tarefa que anteceda a sua tarefa.

    5. Para editar o conteúdo da tarefa selecionada, clique em Editar.

    6. No novo separador que é aberto, edite o conteúdo da tarefa e, em seguida, guarde as alterações na tarefa.

    Elimine uma tarefa de pipeline

    Para eliminar uma tarefa de um pipeline, siga estes passos:

    1. Na Trusted Cloud consola, aceda à página BigQuery.

      Aceda ao BigQuery

    2. No painel Explorador, expanda o projeto e a pasta Pipelines e, de seguida, selecione um pipeline.

    3. Clique na tarefa selecionada.

    4. No painel Detalhes da tarefa, clique no ícone EliminarEliminar.

    Partilhe um pipeline

    Para partilhar um pipeline, siga estes passos:

    1. Na Trusted Cloud consola, aceda à página BigQuery.

      Aceda ao BigQuery

    2. No painel Explorador, expanda o projeto e a pasta Pipelines e, de seguida, selecione um pipeline.

    3. Clique em Partilhar e, de seguida, selecione Gerir autorizações.

    4. Clique em Adicionar utilizador/grupo.

    5. No campo Novos responsáveis, introduza o nome de, pelo menos, um utilizador ou um grupo.

    6. Para Atribuir funções, selecione uma função.

    7. Clique em Guardar.

    1. Na Trusted Cloud consola, aceda à página BigQuery.

      Aceda ao BigQuery

    2. No painel Explorador, expanda o projeto e a pasta Pipelines e, de seguida, selecione um pipeline.

    3. Clique em Partilhar e, de seguida, selecione Partilhar link. O URL do seu pipeline é copiado para a área de transferência do computador.

    Execute uma pipeline

    Para executar manualmente a versão atual de um pipeline, siga estes passos:

    1. Na Trusted Cloud consola, aceda à página BigQuery.

      Aceda ao BigQuery

    2. No painel Explorador, expanda o projeto e a pasta Pipelines e, de seguida, selecione um pipeline.

    3. Clique em Executar. Se selecionou Executar com as minhas credenciais de utilizador para a autenticação, tem de autorizar a sua Conta Google (Pré-visualização).

    4. Opcional: para inspecionar a execução, veja as execuções manuais anteriores.

    Autorize a sua Conta Google

    Para autenticar o recurso com as credenciais de utilizador da sua Conta Google, tem de conceder manualmente autorização aos pipelines do BigQuery para obterem a chave de acesso da sua Conta Google e acederem aos dados de origem em seu nome. Pode conceder aprovação manual com a interface da caixa de diálogo do OAuth.

    Só tem de conceder autorização aos pipelines do BigQuery uma vez.

    Para revogar a autorização que concedeu, siga estes passos:

    1. Aceda à página da Conta Google.
    2. Clique em Pipelines do BigQuery.
    3. Clique em Remover acesso.

    Se o seu pipeline contiver um bloco de notas, também tem de conceder manualmente autorização ao Colab Enterprise para obter o token de acesso da sua Conta Google e aceder aos dados de origem em seu nome. Só tem de conceder autorização uma vez. Pode revogar esta autorização na página da Conta Google.

    O que se segue?