Algumas ou todas as informações nesta página podem não se aplicar ao Cloud de Confiance da S3NS. Consulte Diferenças do Google Cloud para saber mais.

Explorar resultados de consulta em notebooks

É possível explorar os resultados da consulta do BigQuery usando os notebooks do Colab Enterprise no BigQuery.

Neste tutorial, você consulta dados de um conjunto de dados público do BigQuery e explora os resultados de consulta em um notebook.

Objetivos

Criar e executar uma consulta no BigQuery
Explorar resultados de consulta em um notebook.

Custos

Neste tutorial, usamos um conjunto de dados disponível pelo Cloud de Confiance by S3NS programa de conjuntos de dados públicos. O Google paga pelo armazenamento desses conjuntos de dados e oferece acesso público a eles. Você receberá cobranças pelas consultas realizadas nos dados. Para mais informações, consulte Preços do BigQuery.

Antes de começar

In the Cloud de Confiance console, on the project selector page, select or create a Cloud de Confiance project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Cloud de Confiance project.
Enable the BigQuery API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the API

O BigQuery é ativado automaticamente para novos projetos.

Definir a região padrão para recursos de código

Se esta for a primeira vez que você cria um recurso de código, defina a região padrão para recursos de código. Não é possível mudar a região de um recurso de código depois que ele é criado.

Todos os recursos de código no BigQuery Studio usam a mesma região padrão. Para definir a região padrão dos recursos de código, siga estas etapas:

Acessar a página do BigQuery.

Acessar o BigQuery
No painel Explorer, encontre o projeto em que você ativou os recursos de código.
Clique em Ver ações ao lado do projeto e, em seguida, clique em Mudar minha região de código padrão.
Em Região, selecione a região que você quer usar para recursos de código.
Clique em Selecionar.

Para conferir uma lista de regiões compatíveis, consulte Locais do BigQuery Studio.

Permissões necessárias

Para criar e executar notebooks, você precisa dos seguintes papéis do Identity and Access Management (IAM):

Abrir resultados de consulta em um notebook

É possível executar uma consulta SQL e depois usar um notebook para explorar os dados. Essa abordagem é útil quando você quer modificar os dados no BigQuery antes de trabalhar com eles ou quando precisa apenas de um subconjunto dos campos na tabela.

No console do Cloud de Confiance , acesse a página BigQuery.

Acessar o BigQuery
No campo Digite para pesquisar, insira bigquery-public-data.

Se o projeto não aparecer, insira bigquery no campo de pesquisa e clique em Pesquisar para todos os projetos para associar a string de pesquisa aos conjuntos de projetos que já existem.
Selecione bigquery-public-data > ml_datasets > pinguins.
Na tabela pinguins, clique em Ver ações e, em seguida, clique em Consultar.
Adicione um asterisco (*) para seleção de campo à consulta gerada, de modo que ela fique parecida com o exemplo a seguir:
```
SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
```
Clique em Executar.
Na seção Resultados da consulta, clique em Abrir em e em Notebook.

Preparar o notebook para uso

Prepare o notebook para uso conectando-se a um ambiente de execução e definindo os valores padrão do aplicativo.

No cabeçalho do notebook, clique em Conectar para se conectar ao ambiente de execução padrão.
No bloco de código Setup, clique em Executar célula.

Explorar os dados

Para carregar os dados dos pinguins em um BigQuery DataFrame e mostrar os resultados, clique em Executar célula no bloco de código na seção Conjunto de resultados carregado do job do BigQuery como um DataFrame.
Para ver métricas descritivas dos dados, clique em Executar célula no bloco de código na seção Mostrar estatísticas descritivas usando describe().
Opcional: use outras funções ou pacotes do Python para explorar e analisar os dados.

O exemplo de código a seguir mostra o uso de bigframes.pandas para analisar dados e o bigframes.ml para criar um modelo de regressão linear de pinguins em um DataFrame do BigQuery:

import bigframes.pandas as bpd

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Create the Linear Regression model
from bigframes.ml.linear_model import LinearRegression

# Filter down to the data we want to analyze
adelie_data = bq_df[bq_df.species == "Adelie Penguin (Pygoscelis adeliae)"]

# Drop the columns we don't care about
adelie_data = adelie_data.drop(columns=["species"])

# Drop rows with nulls to get our training data
training_data = adelie_data.dropna()

# Pick feature columns and label column
X = training_data[
    [
        "island",
        "culmen_length_mm",
        "culmen_depth_mm",
        "flipper_length_mm",
        "sex",
    ]
]
y = training_data[["body_mass_g"]]

model = LinearRegression(fit_intercept=False)
model.fit(X, y)
model.score(X, y)

Limpeza

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

A maneira mais fácil de evitar o faturamento é excluir o projeto Cloud de Confiance que você criou para este tutorial.

In the Cloud de Confiance console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

A seguir

Saiba mais sobre como criar notebooks no BigQuery.
Saiba como explorar dados com o BigQuery DataFrames.