加载和查询数据

通过创建数据集、将数据加载到表以及查询该表,开始使用 BigQuery。

准备工作

  1. In the Cloud de Confiance console, on the project selector page, select or create a Cloud de Confiance project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  2. 如果您要使用现有项目来完成本指南,请验证您是否拥有完成本指南所需的权限。如果您创建了新项目,则您已拥有所需的权限。

  3. Enable the BigQuery API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

    对于新项目,BigQuery API 会自动启用。

  4. 可选:为项目启用结算功能。如果您不想启用结算功能或提供信用卡,本文档中的步骤仍然有效。BigQuery 提供执行这些步骤的沙盒。如需了解详情,请参阅启用 BigQuery 沙盒
  5. 所需的角色

    如需获得创建数据集、创建表、加载数据和查询数据所需的权限,请让管理员为您授予项目的以下 IAM 角色:

    • 运行加载作业和查询作业: BigQuery Job User roles/bigquery.jobUser
    • 创建数据集、创建表、将数据加载到表中以及查询表: BigQuery Data Editor roles/bigquery.dataEditor

    如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

    您也可以通过自定义角色或其他预定义角色来获取所需的权限。

    创建 BigQuery 数据集

    使用 Cloud de Confiance 控制台创建用于存储数据的数据集。您可以在美国多区域位置创建数据集。如需了解 BigQuery 区域和多区域位置,请参阅位置

    1. 在 Cloud de Confiance 控制台中,打开 BigQuery 页面。
    2. 转到 BigQuery
    3. 在左侧窗格中,点击 探索器
    4. 探索器窗格中,点击您的项目名称。
    5. 点击 查看操作
    6. 选择创建数据集
    7. 创建数据集 页面上,执行以下操作:
      1. 数据集 ID 部分,输入 babynames
      2. 位置类型部分,请选择多区域,然后选择美国(美国的多个区域)。公共数据集存储在 us 多区域位置。为简单起见,请将数据集存储在同一位置。
      3. 保持其余默认设置不变,然后点击创建数据集

    下载包含源数据的文件

    您要下载的文件包含约 7 MB 的热门婴儿名字数据。由美国社会保障管理局提供。

    如需详细了解数据,请参阅社会保障管理局的热门名字背景信息

    1. 在新的浏览器标签页中打开以下网址,下载美国社会保障管理局的数据:

      https://www.ssa.gov/OACT/babynames/names.zip
      
    2. 提取文件。

      如需详细了解数据集架构,请参阅 ZIP 文件的 NationalReadMe.pdf 文件。

    3. 如需查看数据,请打开 yob2024.txt 文件。此文件包含姓名、出生时指定的性别和使用该姓名的儿童人数的英文逗号分隔值。该文件没有标题行。

    4. 请记下 yob2024.txt 文件的位置,以便于日后查找。

    将数据加载到表中

    接下来,将数据加载到新表中。

    1. 在左侧窗格中,点击 探索器
    2. 探索器窗格中,展开您的项目名称。
    3. 点击数据集,然后在 babynames 数据集旁边,点击 查看操作,然后选择打开
    4. 点击 创建表

      除非另有说明,否则请使用所有设置的默认值。

    5. 创建表格 页面上,执行以下操作:
      1. 来源部分,对于基于以下数据源创建表,从列表中选择上传
      2. 选择文件字段中,点击浏览
      3. 找到并打开您的本地 yob2024.txt 文件,然后点击打开
      4. 文件格式列表中,选择 CSV
      5. 目标部分的字段中,输入 names_2024
      6. 架构部分,点击以文本形式修改切换开关,并将以下架构定义粘贴到文本字段中:
      7. name:string,assigned_sex_at_birth:string,count:integer
      8. 点击创建表

        等待 BigQuery 创建表和加载数据。

    预览表数据

    如需预览该表数据,请按照以下步骤操作:

    1. 在左侧窗格中,点击 探索器
    2. 探索器窗格中,展开您的项目,然后点击数据集
    3. 点击 babynames 数据集,然后选择 names_2024 表。
    4. 点击预览标签页。BigQuery 会显示表的前几行。
    5. 表格预览标签页。
    并非所有表类型都提供预览标签页。例如,外部表或视图不会显示预览标签页。

    查询表数据

    接下来,查询该表。

    1. 点击 names_2024 标签页旁边的 SQL 查询选项。系统随即会打开一个新的编辑器标签页。
    2. 在查询编辑器中,粘贴以下查询。此查询可检索美国 2024 年新生男婴最热门的 5 个名字。
      
        SELECT
          name,
          count
        FROM
          `babynames.names_2024`
        WHERE
          assigned_sex_at_birth = 'M'
        ORDER BY
          count DESC
        LIMIT
          5;
        
    3. 点击运行。 结果会显示在查询结果部分中。
      查询结果面板

    在 Cloud de Confiance 控制台中,您已成功查询公共数据集中的表,并将示例数据加载到了 BigQuery 中。

    清理

    为避免因本页中使用的资源导致您的 Cloud de Confiance 账号产生费用,请按照以下步骤操作。

    1. 在 Cloud de Confiance 控制台中,打开 BigQuery 页面。
    2. 转到 BigQuery
    3. 在左侧窗格中,点击 探索器
    4. 探索器窗格中,点击数据集,然后点击您创建的 babynames 数据集。
    5. 展开 查看操作选项,然后点击删除
    6. 删除数据集对话框中,确认删除命令:输入 delete 一词,然后点击删除

    后续步骤