Gere insights de dados no BigQuery

Os insights de dados são uma maneira automatizada de analisar, entender e organizar seus dados. Com os insights de dados, o Gemini gera perguntas em linguagem natural e as consultas SQL para respondê-las com base nos metadados da tabela. Esses insights ajudam você a descobrir padrões, avaliar a qualidade dos dados e realizar análises estatísticas.

Também é possível usar insights de dados para gerar descrições de tabelas e colunas com base em metadados de tabelas (prévia). Esse recurso ajuda você a documentar seus dados para uma análise significativa e melhorar a capacidade de descoberta do conjunto de dados.

Nesta página, descrevemos os principais recursos de insights de dados e o processo de automatização da geração de consultas para uma análise de dados perspicaz.

Antes de começar

Os insights de dados são gerados usando o Gemini no BigQuery. Para começar a gerar insights, primeiro você precisa configurar o Gemini no BigQuery.

Funções exigidas

Para criar, gerenciar e recuperar insights de dados, peça ao administrador para conceder os seguintes papéis do IAM:

Para ter acesso somente leitura aos insights gerados, peça ao administrador para conceder a você o seguinte papel do IAM:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível receber as permissões necessárias com papéis personalizados ou outros papéis predefinidos. Para conferir as permissões exatas necessárias para gerar insights, abra a seção Permissões necessárias:

Permissões necessárias

  • bigquery.jobs.create
  • bigquery.tables.get
  • bigquery.tables.getData
  • dataplex.datascans.create
  • dataplex.datascans.get
  • dataplex.datascans.getData
  • dataplex.datascans.run

Ativar APIs

Para usar insights de dados, ative as seguintes APIs no seu projeto:

Para mais informações sobre como ativar a API Gemini para Google Cloud, consulte Ativar a API Gemini para Google Cloud em um Trusted Cloud projeto.

Sobre os insights de dados

Ao analisar uma tabela nova e desconhecida, os analistas de dados geralmente enfrentam o problema da inicialização a frio. O problema geralmente envolve incertezas sobre a estrutura dos dados, os principais padrões e insights relevantes nos dados, dificultando o início da criação de consultas.

Os insights de dados resolvem o problema de inicialização a frio gerando automaticamente consultas em linguagem natural e seus equivalentes em SQL com base nos metadados de uma tabela. Em vez de começar com um editor de consulta vazio, você pode iniciar rapidamente a exploração de dados com consultas significativas que oferecem insights valiosos. Para investigar mais a fundo, faça perguntas complementares na tela de dados.

Exemplo de execução de insights

Considere uma tabela chamada telco_churn com os seguintes metadados:

Nome do campo Tipo
CustomerID STRING
Gênero STRING
Tempo de casa INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contrato STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Desligamento BOOLEAN

Veja a seguir algumas das consultas de amostra que os insights de dados geram para essa tabela:

  • Identifique os clientes que assinaram todos os serviços premium e são clientes há mais de 50 meses.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identifique qual serviço de Internet tem mais clientes desistentes.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifique as taxas de desistência de usuários por segmento entre os clientes de alto valor.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Práticas recomendadas para melhorar os insights gerados

Para melhorar a precisão dos insights gerados, siga estas práticas recomendadas:

Fundamentar insights nos resultados da criação de perfil de dados

Na IA generativa, embasamento é a capacidade de conectar a saída do modelo a fontes de informações verificáveis. Você pode fundamentar os insights gerados nos resultados da criação de perfil de dados. A criação de perfil de dados analisa as colunas nas tabelas do BigQuery e identifica características estatísticas comuns, como valores e distribuição de dados típicos. Quando você criar uma verificação de criação de perfil de dados em uma tabela, é possível publicar os resultados da verificação nas páginas do BigQuery e do Catálogo universal do Dataplex no console Trusted Cloud . O BigQuery usa os resultados da criação de perfil de dados para criar consultas mais precisas e relevantes fazendo o seguinte:

  1. Analisa os resultados da criação de perfil de dados para identificar padrões, tendências ou outliers interessantes nos dados.
  2. Gera consultas focadas nesses padrões, tendências ou outliers para descobrir insights.
  3. Valida as consultas geradas em relação aos resultados da criação de perfil de dados para garantir que as consultas retornem resultados significativos.

Sem as verificações de criação de perfil de dados, acontece o seguinte:

  • É mais provável que as consultas geradas pelo Gemini incluam cláusulas imprecisas ou produzam resultados sem sentido.
  • As descrições de coluna geradas pelo Gemini são baseadas apenas no nome da coluna.

Verifique se a verificação de criação de perfil de dados da sua tabela está atualizada e se os resultados foram publicados no BigQuery.

Ajuste as configurações de criação de perfil de dados para aumentar o tamanho da amostragem e filtrar linhas e colunas. Depois de executar uma nova verificação de criação de perfil de dados, gere novamente os insights.

Adicionar uma descrição da tabela

Descrições detalhadas que descrevem o que você quer analisar na sua tabela podem ajudar o Gemini no BigQuery a gerar insights mais relevantes. Depois de adicionar uma descrição à tabela, gere insights novamente.

Por exemplo, você pode adicionar a seguinte descrição à tabela telco_churn: "Esta tabela rastreia dados de rotatividade de clientes, incluindo detalhes de assinatura, permanência e uso do serviço, para prever o comportamento de rotatividade de clientes".

Se você salvar a descrição da tabela gerada pelo Gemini, ele vai usar essa descrição para gerar insights futuros.

Adicionar descrições da coluna

As descrições de colunas que explicam o que cada uma delas é ou como uma coluna se relaciona com outra podem melhorar a qualidade dos seus insights. Depois de atualizar as descrições das colunas na tabela, gere insights novamente.

Por exemplo, você pode adicionar as seguintes descrições a colunas específicas da tabela telco_churn:

  • Tenure: "O número de meses que o cliente usa o serviço".
  • Churn: "Se o cliente parou de usar o serviço. TRUE indica que o cliente não usa mais o serviço, e FALSE indica que o cliente está ativo".

Se você salvar as descrições de coluna geradas pelo Gemini, ele vai usar essas descrições para gerar insights futuros.

Gerar insights para uma tabela do BigQuery

Para gerar insights de uma tabela do BigQuery, acesse a entrada da tabela no BigQuery usando o BigQuery Studio.

  1. No console do Trusted Cloud , acesse o BigQuery Studio.

    Acessar o BigQuery Studio

  2. No painel Explorer, selecione a tabela para gerar insights.

  3. Clique na guia Insights. Se a guia estiver vazia, isso significa que os insights da tabela ainda não foram gerados.

  4. Para acionar o pipeline de insights, clique em Gerar insights.

    Leva alguns minutos para que os insights sejam preenchidos.

    Se os resultados publicados da criação de perfil de dados para a tabela estiverem disponíveis, eles serão usados para gerar insights. Caso contrário, os insights são gerados com base nos nomes e descrições das colunas.

  5. Na guia Insights, confira as perguntas geradas em linguagem natural.

  6. Para ver a consulta SQL que responde a uma pergunta, clique nela.

  7. Para abrir uma consulta no BigQuery, clique em Copiar para consulta.

  8. Para fazer perguntas em sequência, faça o seguinte:

    1. Clique em Fazer outra pergunta. A consulta é aberta em uma nova tela de dados.

    2. Clique em Executar e em Consultar estes resultados.

    3. Para fazer uma pergunta complementar, insira um comando no campo Comando de linguagem natural ou edite o SQL no editor de consultas.

  9. Para gerar um novo conjunto de consultas, clique em Gerar insights e acione o pipeline novamente.

Depois de gerar insights para uma tabela, qualquer pessoa com a permissão dataplex.datascans.getData e acesso à tabela poderá visualizar esses insights.

Gerar insights para uma tabela externa do BigQuery

Os insights de dados do BigQuery oferecem suporte à geração de insights para tabelas externas do BigQuery com dados no Cloud Storage. Você e a conta de serviço do Dataplex Universal Catalog para o projeto atual precisam ter o papel de Leitor de objetos do Storage (roles/storage.objectViewer) no bucket do Cloud Storage que contém os dados. Para mais informações, consulte Adicionar um principal a uma política no nível do bucket.

Para gerar insights de uma tabela externa do BigQuery, siga as instruções descritas na seção Gerar insights de uma tabela do BigQuery deste documento.

Gerar insights para uma tabela do BigLake

Para gerar insights para uma tabela do BigLake, siga estas etapas:

  1. Ative a API BigQuery Connection no projeto.

    Ative a API BigQuery Connection.

  2. Criar uma conexão do BigQuery. Para mais informações, consulte Gerenciar conexões.

  3. Conceda o papel do IAM de Leitor de objetos do Storage (roles/storage.objectViewer) à conta de serviço correspondente à conexão do BigQuery que você criou.

    Você pode recuperar o ID da conta de serviço nos detalhes da conexão.

  4. Para gerar insights, siga as instruções descritas na seção Gerar insights para uma tabela do BigQuery deste documento.

Gerar descrições de tabelas e colunas

O Gemini gera automaticamente descrições de tabelas e colunas quando você gera insights de dados. É possível editar essas descrições conforme necessário e salvá-las nos metadados da tabela. O Gemini usa as descrições salvas para gerar insights futuros.

Para gerar descrições de tabelas e colunas, siga estas etapas:

  1. Para gerar insights, siga as instruções descritas na seção relevante deste documento:

  2. Na guia Insights, clique em Ver descrições das colunas.

    A descrição da tabela e das colunas geradas pelo Gemini são mostradas.

  3. Para editar e salvar a descrição da tabela, clique em Salvar nos detalhes. Edite a descrição da tabela conforme necessário e clique em Salvar.

  4. Para editar e salvar as descrições das colunas, clique em Salvar no esquema. Edite as descrições das colunas conforme necessário e clique em Salvar.

Preços

Para saber mais sobre os preços desse recurso, consulte Visão geral dos preços do Gemini no BigQuery.

Cotas e limites

Para informações sobre cotas e limites desse recurso, consulte Cotas do Gemini no BigQuery.

Limitações

  • Os insights de dados estão disponíveis para visualizações e tabelas do BigQuery, do BigLake e externas.
  • Para clientes que têm várias nuvens, os dados de outras nuvens não estão disponíveis.
  • Os insights de dados não são compatíveis com os tipos de coluna Geo ou JSON.
  • A execução de insights não garante a apresentação de consultas todas as vezes. Para aumentar a probabilidade de gerar consultas mais engajadoras, reinicie o pipeline de insights.
  • Para tabelas com controle de acesso (ACLs) no nível da coluna e permissões de usuário restritas, será possível gerar insights se você tiver acesso de leitura a todas as colunas da tabela. Para executar as consultas geradas, você precisa ter permissões suficientes.
  • O Gemini gera descrições de colunas para um máximo de 350 colunas em uma tabela.

Locais

É possível usar insights de dados em todos os locais do BigQuery. O Gemini no BigQuery opera globalmente, então não é possível restringir o tratamento de dados a uma região específica. Para saber mais sobre os locais em que o Gemini no BigQuery processa dados, consulte Locais de veiculação do Gemini.

A seguir