Usa la herramienta de bq

En este instructivo, aprenderás a usar bq, la herramienta de interfaz de línea de comandos (CLI) basada en Python para BigQuery, para crear un conjunto de datos, cargar datos de muestra y consultar tablas. Después de completar este instructivo, conocerás bq y cómo trabajar con BigQuery usando una CLI.

Para obtener una referencia completa de todos los comandos y marcas de bq, consulta la referencia de la herramienta de línea de comandos de bq.

Antes de comenzar

  1. In the Cloud de Confiance console, on the project selector page, select or create a Cloud de Confiance project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  2. Verify that billing is enabled for your Cloud de Confiance project.

  3. Si no habilitas la facturación para el proyecto de Cloud de Confiance que uses en este instructivo, deberás cargar y consultar los datos en la zona de pruebas de BigQuery. La zona de pruebas de BigQuery te permite comprender la plataforma con un conjunto limitado de funciones de BigQuery sin cargo.

  4. Asegúrate de que la API de BigQuery esté habilitada.

    Habilitación de la API

    Si creaste un proyecto nuevo, la API de BigQuery se habilita de forma automática.

  5. Descarga el archivo que contiene los datos de origen

    El archivo que descargarás contiene alrededor de 7 MB de datos sobre nombres populares de bebés. Lo proporciona la Administración del Seguro Social de EE.UU.

    Para obtener más información sobre los datos, consulta la información general sobre nombres populares de la Administración del Seguro Social.

    1. Descarga los datos de la Administración de Seguridad Social de EE.UU. Para ello, abre la siguiente URL en una nueva pestaña del navegador:

      https://www.ssa.gov/OACT/babynames/names.zip
      
    2. Extrae el archivo.

      Para obtener más información sobre el esquema del conjunto de datos, consulta el archivo NationalReadMe.pdf que extrajiste.

    3. Para ver cómo son los datos, abre el archivo yob2024.txt. Contiene valores separados por comas de nombre, genero asignado al nacer y la cantidad de niños con ese nombre. El archivo no tiene una fila de encabezado.

    4. Mueve el archivo a tu directorio de trabajo.

      • Si trabajas en Cloud Shell, haz clic en Más Subir, selecciona Elegir archivos, elige el archivo yob2024.txt y haz clic en Subir.

      • Si trabajas en una shell local, copia o mueve el archivo yob2024.txt al directorio en el que ejecutas la herramienta de bq.

    Crea un conjunto de datos

    1. Ingresa el siguiente comando para crear un conjunto de datos llamado babynames:

      bq mk --dataset babynames
      

      El resultado es similar a este:

      Dataset 'babynames' successfully created.
      
    2. Confirma que el conjunto de datos babynames ahora aparezca en tu proyecto:

      bq ls --datasets=true
      

      El resultado es similar a este:

        datasetId
      -------------
        babynames
      

    Carga datos en una tabla

    1. En el conjunto de datos babynames, carga el archivo de origen yob2024.txt en una tabla nueva llamada names2024:

      bq load babynames.names2024 yob2024.txt name:string,assigned_sex_at_birth:string,count:integer
      

      El resultado es similar a este:

      Upload complete.
      Waiting on bqjob_r3c045d7cbe5ca6d2_0000018292f0815f_1 ... (1s) Current status: DONE
      
    2. Confirma que la tabla names2024 ahora aparezca en el conjunto de datos babynames:

      bq ls --format=pretty babynames
      

      El resultado es similar al siguiente. Algunas columnas se omiten para simplificar el resultado.

      +-----------+-------+
      |  tableId  | Type  |
      +-----------+-------+
      | names2024 | TABLE |
      +-----------+-------+
      
    3. Confirma que el esquema de la tabla nueva names2024 sea name: string, assigned_sex_at_birth: string y count: integer:

      bq show babynames.names2024
      

      El resultado es similar al siguiente. Algunas columnas se omiten para simplificar el resultado.

        Last modified        Schema                      Total Rows   Total Bytes
      ----------------- ------------------------------- ------------ ------------
      14 Mar 17:16:45   |- name: string                    31904       607494
                        |- assigned_sex_at_birth: string
                        |- count: integer
      

    Consultar datos de tablas

    1. Determina los nombres de niñas más populares en los datos:

      bq query \
          'SELECT
            name,
            count
          FROM
            babynames.names2024
          WHERE
            assigned_sex_at_birth = "F"
          ORDER BY
            count DESC
          LIMIT 5'
      

      El resultado es similar a este:

      +-----------+-------+
      |   name    | count |
      +-----------+-------+
      | Olivia    | 14718 |
      | Emma      | 13485 |
      | Amelia    | 12740 |
      | Charlotte | 12552 |
      | Mia       | 12113 |
      +-----------+-------+
      
    2. Determina los nombres de niños menos populares en los datos:

      bq query \
          'SELECT
            name,
            count
          FROM
            babynames.names2024
          WHERE
            assigned_sex_at_birth = "M"
          ORDER BY
            count ASC
          LIMIT 5'
      

      El resultado es similar a este:

      +---------+-------+
      |  name   | count |
      +---------+-------+
      | Aaran   |     5 |
      | Aadiv   |     5 |
      | Aadarsh |     5 |
      | Aarash  |     5 |
      | Aadrik  |     5 |
      +---------+-------+
      

      El conteo mínimo es de 5 porque los datos de origen omiten los nombres que aparecen menos de 5 veces.

    Limpia

    Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Cloud de Confiance por los recursos que usaste en esta página.

    Borra el proyecto

    Si usaste la zona de pruebas de BigQuery para consultar el conjunto de datos públicos, la facturación no estará habilitada para tu proyecto y no es necesario que lo borres.

    La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

    Para borrar el proyecto, sigue estos pasos:

    1. In the Cloud de Confiance console, go to the Manage resources page.

      Go to Manage resources

    2. In the project list, select the project that you want to delete, and then click Delete.
    3. In the dialog, type the project ID, and then click Shut down to delete the project.

    Borra recursos

    Si usaste un proyecto existente, borra los recursos que creaste:

    1. Borra el conjunto de datos babynames

      bq rm --recursive=true babynames
      

      La marca --recursive borra todas las tablas del conjunto de datos, incluida la tabla names2024.

      El resultado es similar a este:

      rm: remove dataset 'myproject:babynames'? (y/N)
      
    2. Para confirmar el comando de eliminación, ingresa y.

    ¿Qué sigue?