Criar pipelines

Neste documento, descrevemos como criar pipelines no BigQuery. Os pipelines são gerados pelo Dataform.

Antes de começar

  1. In the Trusted Cloud console, on the project selector page, select or create a Trusted Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Trusted Cloud project.

  3. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Enable the APIs

  4. Siga as instruções em Ativar o gerenciamento de recursos de código para salvar, compartilhar e gerenciar versões de recursos de código, como pipelines.
  5. Se esta for a primeira vez que você cria um recurso de código, defina a região padrão para armazenar recursos de código. Não é possível alterar a região de um recurso de código depois que ele é criado.
  6. Funções necessárias para pipelines

    Para receber as permissões necessárias para criar pipelines, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:

    Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

    Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

    Para mais informações sobre o IAM do Dataform, consulte Controlar o acesso com o IAM.

    Papéis necessários para opções de notebooks

    Para receber as permissões necessárias para selecionar um modelo de execução nas opções do notebook, peça ao administrador para conceder a você o papel do IAM de Usuário de execução do notebook (roles/aiplatform.notebookRuntimeUser) no projeto. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

    Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

    Se você não tiver essa função, selecione a especificação padrão do ambiente de execução do notebook.

    Criar um pipeline

    Para criar um pipeline, siga estas etapas:

    1. Acessar a página do BigQuery.

      Acessar o BigQuery

    2. Na barra de guias do painel do editor, clique na seta ao lado do sinal + e clique em Pipeline.

    3. Opcional: para renomear o pipeline, clique no nome dele e digite um novo nome.

    4. Clique em Começar e acesse a guia Configurações.

    5. Na seção Autenticação, escolha autorizar o pipeline com suas credenciais de usuário da Conta do Google ou uma conta de serviço.

      • Para usar as credenciais de usuário da sua Conta do Google (pré-lançamento), selecione Executar com minhas credenciais de usuário.
      • Para usar uma conta de serviço, selecione Executar com a conta de serviço selecionada e escolha uma conta de serviço.
    6. Na seção Local, selecione uma região de processamento para o pipeline.

      1. Para selecionar uma região específica, selecione Região e escolha uma no menu Região.
      2. Para selecionar uma multirregião, selecione Multirregião e escolha uma multirregião no menu Multirregião.

      A região de processamento do pipeline não precisa corresponder à sua região de armazenamento padrão para recursos de código.

    Opções de notebooks

    1. Se você planeja adicionar um notebook ao seu pipeline, faça o seguinte na seção Opções de notebook:

      1. No campo Modelo de execução, aceite o ambiente de execução padrão do notebook ou pesquise e selecione um ambiente de execução.

      2. No campo Bucket do Cloud Storage, clique em Procurar e selecione ou crie um bucket do Cloud Storage para armazenar a saída dos notebooks no pipeline.

      3. Siga as instruções em Adicionar um principal a uma política no nível do bucket para adicionar a conta de serviço personalizada do Dataform como um principal ao bucket do Cloud Storage que você planeja usar para armazenar a saída de execuções de pipeline programadas e conceda o papel de administrador do Storage (roles/storage.admin) a esse principal.

        A conta de serviço personalizada do Dataform selecionada precisa receber o papel do IAM "Administrador de armazenamento" no bucket selecionado.

    Adicionar uma tarefa de pipeline

    Para adicionar uma tarefa a um pipeline, siga estas etapas:

    1. No Trusted Cloud console, acesse a página BigQuery.

      Acessar o BigQuery

    2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

    3. Para adicionar um recurso de código, como uma consulta SQL, um notebook ou uma preparação de dados, faça o seguinte:

      Consulta SQL

      1. Clique em Adicionar tarefa e selecione Consulta. Você pode criar uma consulta ou importar uma já existente.

      2. Opcional: no painel Detalhes da tarefa de consulta, no menu Executar depois, selecione uma tarefa que vai preceder a consulta.

        Sua consulta vai depender da tarefa anterior.

      Criar uma consulta

      1. Clique no menu de setas ao lado de Editar consulta e selecione No contexto ou Em uma nova guia.

      2. Pesquise uma consulta.

      3. Selecione um nome de consulta e pressione Enter.

      4. Clique em Salvar.

      5. Opcional: para renomear a consulta, clique no nome da consulta no painel do pipeline, clique em Editar consulta, clique no nome da consulta atual na parte de cima da tela e digite um novo nome.

      Importar uma consulta

      1. Clique no menu de setas ao lado de Editar consulta e em Importar uma cópia.

      2. Pesquise uma consulta para importar ou selecione uma consulta no painel de pesquisa. Quando você importa uma consulta, o original permanece inalterado porque o arquivo de origem da consulta é copiado para o pipeline.

      3. Clique em Editar para abrir a consulta importada.

      4. Clique em Salvar.

      Notebook

      1. Clique em Adicionar tarefa e selecione Notebook. Você pode criar um novo caderno ou importar um que já existe. Para mudar as configurações dos modelos de execução de notebooks, consulte Opções de notebooks.

      2. Opcional: no painel Detalhes da tarefa do notebook, no menu Executar depois, selecione uma tarefa que vai preceder o notebook.

        Seu notebook vai depender da tarefa anterior.

      Criar um novo notebook

      1. Clique no menu de setas ao lado de Editar notebook e selecione No contexto ou Em nova guia.

      2. Pesquise um notebook.

      3. Selecione um nome de notebook e pressione Enter.

      4. Clique em Salvar.

      5. Opcional: para renomear o notebook, clique no nome dele no painel do pipeline, clique em Edit Notebook, clique no nome do notebook na parte de cima da tela e digite um novo nome.

      Importar um notebook existente

      1. Clique no menu de setas ao lado de Editar notebook e em Importar uma cópia.

      2. Pesquise um notebook para importar ou selecione um no painel de pesquisa. Quando você importa um notebook, o original permanece inalterado, porque o arquivo de origem do notebook é copiado para o pipeline.

      3. Para abrir o notebook importado, clique em Editar.

      4. Clique em Salvar.

      Preparação de dados

      1. Clique em Adicionar tarefa e selecione Preparação de dados. Você pode criar uma nova preparação de dados ou importar uma já existente.

      2. Opcional: no painel Detalhes da tarefa de preparação de dados, no menu Executar depois, selecione uma tarefa que vai preceder a preparação de dados.

        A preparação dos dados vai depender da tarefa anterior.

      Criar uma nova preparação de dados

      1. Clique no menu de setas ao lado de Editar preparação de dados e selecione No contexto ou Em uma nova guia.

      2. Pesquise uma preparação de dados.

      3. Selecione um nome de preparação de dados e pressione Enter.

      4. Clique em Salvar.

      5. Opcional: para renomear a preparação de dados, clique no nome da preparação de dados no painel do pipeline, clique em Editar preparação de dados, clique no nome na parte de cima da tela e insira um novo nome.

      Importar uma preparação de dados existente

      1. Clique no menu suspenso da seta ao lado de Editar preparação de dados e clique em Importar uma cópia.

      2. Pesquise uma preparação de dados para importar ou selecione uma preparação de dados no painel de pesquisa. Quando você importa uma preparação de dados, o original permanece inalterado porque o arquivo de origem da preparação de dados é copiado para o pipeline.

      3. Para abrir o preparo de dados importado, clique em Editar.

      4. Clique em Salvar.

    Editar uma tarefa de pipeline

    Para editar uma tarefa de pipeline, siga estas etapas:

    1. No Trusted Cloud console, acesse a página BigQuery.

      Acessar o BigQuery

    2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

    3. Clique na tarefa selecionada.

    4. Para mudar a tarefa anterior, no menu Executar depois, selecione uma tarefa que vai preceder a consulta ou o notebook.

    5. Para editar o conteúdo da tarefa selecionada, clique em Editar.

    6. Na nova guia que abrir, edite o conteúdo da tarefa e salve as alterações.

    Excluir uma tarefa de pipeline

    Para excluir uma tarefa de um pipeline, siga estas etapas:

    1. No Trusted Cloud console, acesse a página BigQuery.

      Acessar o BigQuery

    2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

    3. Clique na tarefa selecionada.

    4. No painel Detalhes da tarefa, clique no ícone ExcluirExcluir.

    Compartilhar um pipeline

    Para compartilhar um pipeline, siga estas etapas:

    1. No Trusted Cloud console, acesse a página BigQuery.

      Acessar o BigQuery

    2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

    3. Clique em Compartilhar e selecione Gerenciar permissões.

    4. Clique em Adicionar usuário/grupo.

    5. No campo Novos participantes, insira o nome de pelo menos um usuário ou grupo.

    6. Em Atribuir papéis, selecione uma opção.

    7. Clique em Salvar.

    1. No Trusted Cloud console, acesse a página BigQuery.

      Acessar o BigQuery

    2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

    3. Clique em Compartilhar e selecione Compartilhar link. O URL do pipeline é copiado para a área de transferência do computador.

    Executar um pipeline

    Para executar manualmente a versão atual de um pipeline, siga estas etapas:

    1. No Trusted Cloud console, acesse a página BigQuery.

      Acessar o BigQuery

    2. No painel Explorer, expanda o projeto e a pasta Pipelines e selecione um pipeline.

    3. Clique em Executar. Se você selecionou Executar com minhas credenciais de usuário para sua autenticação, é necessário autorizar sua Conta do Google (pré-visualização).

    4. Opcional: para inspecionar a execução, confira as execuções manuais anteriores.

    Autorizar sua Conta do Google

    Para autenticar o recurso com suas credenciais de usuário da Conta do Google, você precisa conceder manualmente permissão para que os pipelines do BigQuery recebam o token de acesso da sua Conta do Google e acessem os dados de origem em seu nome. É possível conceder aprovação manual com a interface da caixa de diálogo do OAuth.

    Você só precisa conceder permissão para pipelines do BigQuery uma vez.

    Para revogar a permissão concedida, siga estas etapas:

    1. Acesse a página da sua Conta do Google.
    2. Clique em BigQuery Pipelines.
    3. Clique em Remover acesso.

    Se o pipeline tiver um notebook, você também vai precisar conceder manualmente permissão para que o Colab Enterprise receba o token de acesso da sua Conta do Google e acesse os dados de origem em seu nome. Você só precisa dar permissão uma vez. É possível revogar essa permissão na página da Conta do Google.

    A seguir