Algumas ou todas as informações nesta página podem não se aplicar ao Cloud de Confiance da S3NS. Consulte Diferenças do Google Cloud para saber mais.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Realizar engenharia de atributos com a cláusula TRANSFORM

Neste tutorial, ensinamos a usar a TRANSFORM cláusula da instrução CREATE MODEL para realizar a engenharia de atributos ao mesmo tempo em que você cria e treina um modelo. Usando a cláusula TRANSFORM, você pode especificar uma ou mais funções de pré-processamento para transformar os dados de entrada usados para treinar o modelo. O pré-processamento aplicado ao modelo é aplicado automaticamente quando você usa o modelo com as ML.EVALUATE e ML.PREDICT funções.

Este tutorial usa o conjunto de dados público bigquery-public-data.ml_datasets.penguin dataset.

Objetivos

Este tutorial orienta você na conclusão das seguintes tarefas:

Criar um modelo de regressão linear para prever o tipo de chamada de serviço usando a CREATE MODEL instrução. Na instrução CREATE MODEL, use as ML.QUANTILE_BUCKETIZE e ML.FEATURE_CROSS funções para pré-processar dados.
Avaliar o modelo usando a ML.EVALUATE função.
Receber previsões do modelo usando a ML.PREDICT função.

Custos

Este tutorial usa componentes faturáveis do Cloud de Confiance by S3NS, incluindo:

BigQuery
BigQuery ML

Para mais informações sobre os custos do BigQuery, consulte a página de preços.

Antes de começar

In the Cloud de Confiance console, on the project selector page, select or create a Cloud de Confiance project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Cloud de Confiance project.
O BigQuery é ativado automaticamente em novos projetos. Para ativar o BigQuery em um projeto preexistente, clique no botão abaixo.
Ative a API BigQuery.
Funções necessárias para ativar APIs
Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (roles/serviceusage.serviceUsageAdmin), que contém a permissão serviceusage.services.enable. Saiba como conceder papéis.
Ativar a API

crie um conjunto de dados

Crie um conjunto de dados do BigQuery para armazenar o modelo de ML.

Console

No Cloud de Confiance console, acesse a página BigQuery.

Acesse a página do BigQuery
No painel Explorer, clique no nome do seu projeto.
Clique em Ver ações > Criar conjunto de dados.
Na página Criar conjunto de dados, faça o seguinte:
- Para o código do conjunto de dados, insira bqml_tutorial.
- Em Tipo de local, selecione Multirregião e selecione EUA.
- Mantenha as configurações padrão restantes e clique em Criar conjunto de dados.

bq

Para criar um novo conjunto de dados, use o bq mk --dataset comando.

Crie um conjunto de dados chamado bqml_tutorial com o local de dados definido como US.

bq mk --dataset \
  --location=US \
  --description "BigQuery ML tutorial dataset." \
  bqml_tutorial

Confirme se o conjunto de dados foi criado:
```
bq ls
```

API

Chame o datasets.insert método com um recurso de conjunto de dados definido.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

Criar o modelo

Crie um modelo de regressão linear para prever o peso de pinguins e treine-o na tabela de amostra penguins.

A OPTIONS(model_type='linear_reg', input_label_cols=['body_mass_g']) cláusula indica que você está criando um modelo de regressão linear. Um modelo de regressão linear gera um valor contínuo a partir de uma combinação linear de recursos de entrada. A coluna body_mass_g é a coluna do rótulo de entrada. Para modelos de regressão linear, é preciso que a coluna de rótulo tenha valor real, isto é, os valores da coluna precisam ser números reais.

A cláusula TRANSFORM desta consulta usa as seguintes colunas da instrução SELECT:

body_mass_g: usado no treinamento sem nenhuma mudança.
culmen_depth_mm: usado no treinamento sem nenhuma mudança.
flipper_length_mm: usado no treinamento sem nenhuma mudança.
bucketized_culmen_length: gerado a partir de culmen_length_mm, dividindo culmen_length_mm com base em quantis usando a função analítica ML.QUANTILE_BUCKETIZE().
culmen_length_mm: o valor original de culmen_length_mm, convertido em um valor STRING e usado no treinamento.
species_sex: gerado a partir do cruzamento de species e sex usando a função ML.FEATURE_CROSS.

Não é necessário usar todas as colunas da tabela de treinamento na cláusulaTRANSFORM.

A cláusula WHERE—WHERE body_mass_g IS NOT NULL AND RAND() < 0.2— exclui linhas em que o peso dos pinguins é NULL, e usa a função RAND para extrair uma amostra aleatória dos dados.

Siga estas etapas para criar o modelo:

No Cloud de Confiance console, acesse a página BigQuery.

Acessar o BigQuery

No editor de consultas, cole a consulta abaixo e clique em Executar:

CREATE OR REPLACE MODEL `bqml_tutorial.penguin_transform`
  TRANSFORM(
    body_mass_g,
    culmen_depth_mm,
    flipper_length_mm,
    ML.QUANTILE_BUCKETIZE(culmen_length_mm, 10) OVER () AS bucketized_culmen_length,
    CAST(culmen_length_mm AS string) AS culmen_length_mm,
    ML.FEATURE_CROSS(STRUCT(species, sex)) AS species_sex)
  OPTIONS (
    model_type = 'linear_reg',
    input_label_cols = ['body_mass_g'])
AS
SELECT
  *
FROM
  `bigquery-public-data.ml_datasets.penguins`
WHERE
  body_mass_g IS NOT NULL
  AND RAND() < 0.2;

A consulta leva cerca de 15 minutos para ser concluída. Depois disso, o modelo penguin_transform aparece no painel Explorer. Como a consulta usa uma instrução CREATE MODEL para criar um modelo, não é necessário ver os resultados da consulta.

Avaliar o modelo

Avalie o desempenho do modelo usando a função ML.EVALUATE. A função ML.EVALUATE avalia os pesos de pinguins previstos retornados pelo modelo em relação aos pesos reais dos pinguins dos dados de treinamento.

A instrução SELECT aninhada e a cláusula FROM desta consulta são as mesmas da consulta CREATE MODEL. Como você usou a cláusula TRANSFORM ao criar o modelo, não é necessário especificar as colunas e transformações novamente na função ML.EVALUATE. A função os recupera automaticamente do modelo.

Siga estas etapas para avaliar o modelo:

No Cloud de Confiance console, acesse a página BigQuery.

Acessar o BigQuery

No editor de consultas, cole a consulta abaixo e clique em Executar:

SELECT
  *
FROM
  ML.EVALUATE(
    MODEL `bqml_tutorial.penguin_transform`,
    (
      SELECT
        *
      FROM
        `bigquery-public-data.ml_datasets.penguins`
      WHERE
        body_mass_g IS NOT NULL
    ));

A resposta deve ficar assim:

+---------------------+--------------------+------------------------+-----------------------+--------------------+--------------------+
| mean_absolute_error | mean_squared_error | mean_squared_log_error | median_absolute_error |      r2_score      | explained_variance |
+---------------------+--------------------+------------------------+-----------------------+--------------------+--------------------+
|   64.21134350607677 | 13016.433317859564 |   7.140935762696211E-4 |     15.31788461553515 | 0.9813042531507734 | 0.9813186268757634 |
+---------------------+--------------------+------------------------+-----------------------+--------------------+--------------------+

Uma métrica importante nos resultados da avaliação é a pontuação R². A pontuação R² é uma medida estatística que determina se as previsões de regressão linear se aproximam dos dados reais. Um valor de 0 indica que o modelo não explica nenhuma variabilidade dos dados de resposta em torno da média. Um valor de 1 indica que o modelo explica toda a variabilidade dos dados de resposta em torno da média.

Para mais informações sobre a saída da função ML.EVALUATE, consulte Saída.

Também é possível chamar ML.EVALUATE sem fornecer os dados de entrada. Ela usará as métricas de avaliação calculadas durante o treinamento.

Usar o modelo para prever o peso de pinguins

Use o modelo com a função ML.PREDICT para prever o peso de pinguins machos.

A função ML.PREDICT gera o valor previsto na predicted_label_column_name coluna, neste caso predicted_body_mass_g.

Ao usar a função ML.PREDICT, não é necessário transmitir todas as colunas usadas no treinamento de modelo. Somente as colunas usadas na cláusula TRANSFORM são obrigatórias. Semelhante a ML.EVALUATE, a função ML.PREDICT recupera automaticamente as colunas e transformações TRANSFORM do modelo.

Siga estas etapas para receber previsões do modelo:

No Cloud de Confiance console, acesse a página BigQuery.

Acessar o BigQuery

No editor de consultas, cole a consulta abaixo e clique em Executar:

SELECT
  predicted_body_mass_g
FROM
  ML.PREDICT(
    MODEL `bqml_tutorial.penguin_transform`,
    (
      SELECT
        *
      FROM
        `bigquery-public-data.ml_datasets.penguins`
      WHERE
        sex = 'MALE'
    ));

A resposta deve ficar assim:

+-----------------------+
| predicted_body_mass_g |
+-----------------------+
|    2810.2868541725757 |
+-----------------------+
|    3813.6574220842676 |
+-----------------------+
|     4098.844698262214 |
+-----------------------+
|     4256.587135004173 |
+-----------------------+
|     3008.393497302691 |
+-----------------------+
|     ...               |
+-----------------------+

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

exclua o projeto que você criou; ou
Mantenha o projeto e exclua o conjunto de dados.

Excluir o conjunto de dados

A exclusão do seu projeto removerá todos os conjuntos de dados e tabelas no projeto. Caso prefira reutilizá-lo, exclua o conjunto de dados criado neste tutorial:

Se necessário, abra a página do BigQuery no Cloud de Confiance console.

Acesse a página do BigQuery
No painel de navegação, clique no conjunto de dados bqml_tutorial que você criou.
No lado direito da janela, clique em Excluir conjunto de dados. Essa ação exclui o conjunto, a tabela e todos os dados.
Na caixa de diálogo Excluir conjunto de dados, confirme o comando de exclusão digitando o nome do seu conjunto de dados (bqml_tutorial) e clique em Excluir.

Excluir o projeto

Para excluir o projeto:

No Cloud de Confiance console, acesse a página Gerenciar recursos.
Acessar "Gerenciar recursos"
Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir.
Na caixa de diálogo, digite o ID do projeto e clique em Desligar para excluir o projeto.

A seguir

Para saber mais sobre machine learning, consulte o Curso intensivo de machine learning.
Para uma visão geral do BigQuery ML, consulte Introdução ao BigQuery ML.
Para saber mais sobre o console do, consulte Como usar o console do . Cloud de Confiance Cloud de Confiance