创建流水线

本文档介绍了如何在 BigQuery 中创建流水线。流水线由 Dataform 提供支持。

准备工作

  1. In the Trusted Cloud console, on the project selector page, select or create a Trusted Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Trusted Cloud project.

  3. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Enable the APIs

  4. 流水线所需的角色

    如需获得创建流水线所需的权限,请让您的管理员为您授予项目的以下 IAM 角色:

    如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

    您也可以通过自定义角色或其他预定义角色来获取所需的权限。

    如需详细了解 Dataform IAM,请参阅使用 IAM 控制访问权限

    笔记本选项所需的角色

    如需获得在笔记本选项中选择运行时模板所需的权限,请让您的管理员为您授予项目的 Notebook Runtime User (roles/aiplatform.notebookRuntimeUser) IAM 角色。 如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

    您也可以通过自定义角色或其他预定义角色来获取所需的权限。

    如果您没有此角色,可以选择默认的笔记本运行时规范。

    设置代码资源的默认区域

    如果这是您第一次创建代码资源,您应设置代码资源的默认区域。代码资源创建后,便无法更改该区域。

    BigQuery Studio 中的所有代码资源都使用相同的默认区域。 如需为代码资源设置默认区域,请按以下步骤操作:

    1. 转到 BigQuery 页面。

      转到 BigQuery

    2. 探索器窗格中,找到启用了代码资源的项目。

    3. 点击项目旁边的 查看操作,然后点击更改我的默认代码区域

    4. 对于区域,选择您要用于代码资源的区域。

    5. 点击选择

    如需查看可用区域列表,请参阅 BigQuery Studio 位置

    创建流水线

    如需创建流水线,请按以下步骤操作:

    1. 转到 BigQuery 页面。

      转到 BigQuery

    2. 在编辑器窗格的标签页栏中,点击 + 号旁边的 箭头,然后点击流水线

    3. 可选:如需重命名流水线,请点击流水线名称,然后输入新名称。

    4. 点击开始,然后前往设置标签页。

    5. 身份验证部分中,选择使用您的 Google 账号用户凭证或服务账号授权流水线。

      • 如需使用您的 Google 账号用户凭证(预览版),请选择使用我的用户凭证执行
      • 如需使用服务账号,请选择使用所选服务账号执行,然后选择一个服务账号。
    6. 位置部分中,为流水线选择处理区域。

      1. 如需选择特定区域,请选择区域,然后在区域菜单中选择相应区域。
      2. 如需选择多区域,请选择多区域,然后在多区域下拉菜单中选择相应多区域。

      流水线处理区域无需与代码资源的默认存储区域相匹配。

    笔记本选项

    1. 如果您打算将笔记本添加到流水线,请在笔记本选项部分中执行以下操作:

      1. 运行时模板字段中,接受默认的笔记本运行时,或搜索并选择现有的运行时。

        • 如需查看默认运行时的规范,请点击相邻的箭头。
        • 如需创建新的运行时,请参阅创建运行时模板
      2. Cloud Storage 存储桶字段中,点击浏览,然后选择或创建一个 Cloud Storage 存储桶,用于在流水线中存储笔记本的输出。

      3. 请按照将主账号添加到存储桶级层政策中中的说明,将您的自定义 Dataform 服务账号作为主账号添加到您计划用于存储安排的流水线运行输出的 Cloud Storage 存储桶,并向此主账号授予 Storage Admin (roles/storage.admin) 角色。

        所选的自定义 Dataform 服务账号必须在所选存储桶中获得 Storage Admin IAM 角色。

    添加流水线任务

    如需将任务添加到流水线,请按以下步骤操作:

    1. 在 Trusted Cloud 控制台中,前往 BigQuery 页面。

      转到 BigQuery

    2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

    3. 如需添加代码资源(例如 SQL 查询、笔记本或数据准备),请执行以下操作:

      SQL 查询

      1. 点击添加任务,然后选择查询。 您可以创建新查询,也可以导入现有查询。

      2. 可选:在查询任务详细信息窗格中的在完成以下哪一项操作以后运行下拉菜单中,选择将在查询之前运行的任务。

        您的查询会取决于前置任务。

      创建新查询

      1. 点击修改查询旁边的 箭头菜单,然后选择在上下文中在新标签页中

      2. 搜索现有查询。

      3. 选择查询名称,然后按 Enter 键。

      4. 点击保存

      5. 可选:如需重命名查询,请点击流水线窗格中的查询名称,点击修改查询,点击屏幕顶部的现有查询名称,然后输入新名称。

      导入现有查询

      1. 点击修改查询旁边的 箭头菜单,然后点击导入副本

      2. 搜索要导入的现有查询,或从搜索窗格中选择现有查询。导入查询时,原始查询保持不变,因为查询的源文件会复制到流水线中。

      3. 点击修改以打开导入的查询。

      4. 点击保存

      笔记本

      1. 点击添加任务,然后选择笔记本。 您可以创建新笔记本,也可以导入现有笔记本。如需更改笔记本运行时模板的设置,请参阅笔记本选项

      2. 可选:在笔记本任务详细信息窗格中的在完成以下哪一项操作以后运行菜单中,选择将在笔记本之前运行的任务。

        您的笔记本会取决于前置任务。

      新建笔记本

      1. 点击修改笔记本旁边的 箭头菜单,然后选择在上下文中在新标签页中

      2. 搜索现有笔记本。

      3. 选择笔记本名称,然后按 Enter 键。

      4. 点击保存

      5. 可选:如需重命名笔记本,请点击流水线窗格中的笔记本名称,点击修改笔记本,点击屏幕顶部的现有笔记本名称,然后输入新名称。

      导入现有笔记本

      1. 点击修改笔记本旁边的 箭头菜单,然后点击导入副本

      2. 搜索要导入的现有笔记本,或从搜索窗格中选择现有笔记本。导入笔记本时,原始笔记本保持不变,因为笔记本的源文件会复制到流水线中。

      3. 如需打开所导入的笔记本,请点击修改

      4. 点击保存

      数据准备

      1. 点击添加任务,然后选择数据准备。您可以创建新的数据准备,也可以导入现有的数据准备。

      2. 可选:在数据准备任务详细信息窗格中的在完成以下哪一项操作以后运行菜单中,选择将在数据准备之前运行的任务。

        您的数据准备将取决于前置任务。

      创建新的数据准备

      1. 点击修改数据准备旁边的 箭头菜单,然后选择在上下文中在新标签页中

      2. 搜索现有的数据准备。

      3. 选择数据准备名称,然后按 Enter 键。

      4. 点击保存

      5. 可选:如需重命名数据准备,请点击流水线窗格中的数据准备名称,点击修改数据准备,点击屏幕顶部名称,然后输入新名称。

      导入现有数据准备

      1. 点击修改数据准备旁边的 箭头下拉菜单,然后点击导入副本

      2. 搜索要导入的现有数据准备,或从搜索窗格中选择现有的数据准备。导入数据准备时,原始数据准备保持不变,因为数据准备的源文件会复制到流水线中。

      3. 如需打开所导入的数据准备,请点击修改

      4. 点击保存

    修改流水线任务

    如需修改流水线任务,请按以下步骤操作:

    1. 在 Trusted Cloud 控制台中,前往 BigQuery 页面。

      转到 BigQuery

    2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

    3. 点击所选任务。

    4. 如需更改前置任务,请在在完成以下哪一项操作以后运行菜单中,选择将在查询或笔记本之前运行的任务。

    5. 如需修改所选任务的内容,请点击修改

    6. 在打开的新标签页中,修改任务内容,然后保存对任务的更改。

    删除流水线任务

    如需从流水线中删除任务,请按以下步骤操作:

    1. 在 Trusted Cloud 控制台中,前往 BigQuery 页面。

      转到 BigQuery

    2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

    3. 点击所选任务。

    4. 任务详情窗格中,点击删除删除图标。

    共享流水线

    如需共享流水线,请按以下步骤操作:

    1. 在 Trusted Cloud 控制台中,前往 BigQuery 页面。

      转到 BigQuery

    2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

    3. 点击共享,然后点击管理权限

    4. 单击添加用户/群组

    5. 新的主账号字段中,输入至少一个用户或群组的名称。

    6. 对于分配角色,请选择一个角色。

    7. 点击保存

    1. 在 Trusted Cloud 控制台中,前往 BigQuery 页面。

      转到 BigQuery

    2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

    3. 点击共享,然后选择共享链接。系统会将流水线的网址复制到计算机的剪贴板中。

    运行流水线

    如需手动运行流水线的当前版本,请按以下步骤操作:

    1. 在 Trusted Cloud 控制台中,前往 BigQuery 页面。

      转到 BigQuery

    2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

    3. 点击运行。如果您选择了使用我的用户凭证执行作为身份验证,则必须授权您的 Google 账号预览版)。

    4. 可选:如需检查运行情况,请查看过去的手动运行情况

    授权您的 Google 账号

    如需使用您的 Google 账号用户凭证向资源进行身份验证,您必须手动向 BigQuery 流水线授予权限,以便其获取您的 Google 账号的访问令牌并代表您访问源数据。您可以通过 OAuth 对话框界面手动进行批准。

    您只需向 BigQuery 流水线授予一次权限。

    如需撤销您已授予的权限,请按以下步骤操作:

    1. 前往您的“Google 账号”页面
    2. 点击 BigQuery 流水线
    3. 点击解除使用权限

    如果您的流水线包含笔记本,您还必须手动向 Colab Enterprise 授予权限,以便其获取您的 Google 账号的访问令牌并代表您访问源数据。您只需授予一次权限。您可以在 Google 账号页面上撤消此权限。

    后续步骤