Explora los resultados de las consultas en los notebooks

Puedes explorar los resultados de consultas con celdas de SQL o celdas de código en los notebooks de BigQuery Colab Enterprise.

En este instructivo, consultarás datos de un conjunto de datos públicos de BigQuery y explorarás los resultados de las consultas en un notebook.

Objetivos

  • Crear y ejecutar una consulta en BigQuery.
  • Explorar los resultados de las consultas en un notebook con celdas de SQL y celdas de código.

Costos

En este instructivo, se usa un conjunto de datos disponible a través del Cloud de Confiance by S3NS Programa de conjuntos de datos públicos. Google cubre los costos de almacenamiento de estos conjuntos de datos y proporciona acceso público a los datos. Se generarán cargos por las consultas que realices en los datos. Para obtener más información, consulta los Precios de BigQuery.

Antes de comenzar

  1. En la Cloud de Confiance consola de, en la página del selector de proyectos, selecciona o crea un Cloud de Confiance proyecto.

    Roles necesarios para seleccionar o crear un proyecto

    • Seleccionar un proyecto: Para seleccionar un proyecto, no se requiere un rol de IAM específico. Puedes seleccionar cualquier proyecto en el que se te haya otorgado un rol.
    • Crear un proyecto: Para crear un proyecto, necesitas el rol de creador de proyectos (roles/resourcemanager.projectCreator), que contiene el resourcemanager.projects.create permiso. Obtén más información para otorgar roles.

    Ir al selector de proyectos

  2. Verifica que la facturación esté habilitada para tu Cloud de Confiance proyecto.

  3. Habilita la API de BigQuery.

    Roles necesarios para habilitar las APIs

    Para habilitar las APIs, necesitas el rol de IAM de administrador de Service Usage (roles/serviceusage.serviceUsageAdmin), que contiene el permiso serviceusage.services.enable. Obtén más información para otorgar roles.

    Habilitar la API

    En los proyectos nuevos, BigQuery se habilita de forma automática.

Configura la región predeterminada para los elementos de código

Todos los elementos de código nuevos de tu Cloud de Confiance proyecto usan una región predeterminada. Después de crear el elemento, no puedes cambiar su región.

Para configurar la región predeterminada de los elementos de código nuevos, haz lo siguiente:

  1. Ve a la página de BigQuery.

    Ir a BigQuery

  2. En el panel de la izquierda, haz clic en Archivos para abrir el navegador de archivos:

    Haz clic en **Archivos** para abrir el navegador de archivos.

  3. Junto al nombre del proyecto, haz clic en Ver acciones del panel de archivos > Cambiar región de código.

  4. Selecciona la región de código que deseas usar como predeterminada.

  5. Haz clic en Guardar.

Para obtener una lista de las regiones compatibles, consulta Ubicaciones de BigQuery Studio.

Permisos necesarios

Para crear y ejecutar notebooks, necesitas los siguientes roles de Identity and Access Management (IAM):

Abre los resultados de una consulta en un notebook

Puedes ejecutar una consulta en SQL y, luego, usar un notebook para explorar los datos. Este enfoque es útil si deseas modificar los datos en BigQuery antes de trabajar con ellos, o si solo necesitas un subconjunto de los campos de la tabla.

  1. En la Cloud de Confiance consola de, ve a la página BigQuery.

    Ir a BigQuery

  2. En el panel de la izquierda, haz clic en Explorador.

  3. Ve al proyecto bigquery-public-data, haz clic Activar o desactivar nodo para expandir lo y, luego, haz clic en Conjuntos de datos. Se abrirá una pestaña nueva en el panel de detalles que muestra una lista de todos los conjuntos de datos del proyecto.

  4. En el cuadro Filtro, elige ID del conjunto de datos y, luego, ingresa ml_datasets.

    El campo Filtro en la página Conjuntos de datos

  5. En la página Conjuntos de datos, haz clic en ml_datasets > pingüinos.

  6. Haz clic en Consulta.

  7. Agrega un asterisco (*) para la selección de campos a la consulta generada, de modo que se vea como el siguiente ejemplo:

    SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
  8. Haz clic en Ejecutar.

  9. En la sección Resultados de la consulta , haz clic en Abrir en y, luego, en Notebook.

Prepara el notebook para usarlo

Prepara el notebook para usarlo a través de la conexión a un entorno de ejecución y la configuración de valores predeterminados de la aplicación.

  1. En el encabezado del notebook, haz clic en Conectar para conectarte al entorno de ejecución predeterminado.

  2. En el bloque de código Configuración, haz clic en Ejecutar celda.

Explora los datos

  1. Haz clic en Insertar opciones de celda de código > Agregar celda de SQL.

    La opción Agregar celda de SQL en el menú Insertar celda de código

  2. Ingresa la siguiente consulta en la celda de SQL:

    SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
    
  3. Haz clic en Ejecutar celda.

    Los resultados de la consulta se muestran en un BigQuery DataFrame.

  4. Como alternativa, para cargar los resultados de la consulta en un DataFrame de BigQuery con el trabajo de consulta que ejecutaste anteriormente en el editor de consultas, sigue estos pasos:

    1. Ve a la sección Conjunto de resultados cargado desde un trabajo de BigQuery como un DataFrame.

    2. En el bloque de código, haz clic en Ejecutar celda.

      Los resultados de la consulta se muestran en un DataFrame de BigQuery.

  5. Para obtener métricas descriptivas de los datos, sigue estos pasos:

    1. Ve a la sección Mostrar estadísticas descriptivas con describe().

    2. En el bloque de código, haz clic en Ejecutar celda.

      Los resultados se muestran en un DataFrame de BigQuery.

  6. Opcional: Usa otras funciones o paquetes de Python para explorar y analizar los datos.

En el siguiente muestra de código, se muestra cómo usar bigframes.pandas para analizar datos y bigframes.ml para crear un modelo de regresión lineal de datos de pingüinos en un DataFrame de BigQuery:

import bigframes.pandas as bpd

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Create the Linear Regression model
from bigframes.ml.linear_model import LinearRegression

# Filter down to the data we want to analyze
adelie_data = bq_df[bq_df.species == "Adelie Penguin (Pygoscelis adeliae)"]

# Drop the columns we don't care about
adelie_data = adelie_data.drop(columns=["species"])

# Drop rows with nulls to get our training data
training_data = adelie_data.dropna()

# Pick feature columns and label column
X = training_data[
    [
        "island",
        "culmen_length_mm",
        "culmen_depth_mm",
        "flipper_length_mm",
        "sex",
    ]
]
y = training_data[["body_mass_g"]]

model = LinearRegression(fit_intercept=False)
model.fit(X, y)
model.score(X, y)

Limpia

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

La manera más fácil de eliminar la facturación es borrar el Cloud de Confiance proyecto que creaste para este instructivo.

  1. En la Cloud de Confiance consola, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que tú quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

¿Qué sigue?