Vista geral da análise do BigQuery

Este documento descreve como o BigQuery processa as consultas e apresenta uma vista geral de várias funcionalidades úteis para compreender e analisar os seus dados.

O BigQuery está otimizado para executar consultas analíticas em grandes conjuntos de dados, incluindo terabytes de dados em segundos e petabytes em minutos. Compreender as respetivas capacidades e como processa as consultas pode ajudar a maximizar os seus investimentos na análise de dados.

Para fazer uma visita guiada às funcionalidades de estatísticas de dados do BigQuery diretamente na Trusted Cloud consola, clique em Fazer visita guiada.

Fazer a visita guiada

Fluxos de trabalho analíticos

O BigQuery suporta vários fluxos de trabalho de análise de dados:

  • Análise ad hoc. O BigQuery usa o GoogleSQL, o dialeto de SQL no BigQuery, para suportar a análise ad hoc. Pode executar consultas na Trusted Cloud consola ou através de ferramentas de terceiros que se integram com o BigQuery.

  • Análise geoespacial. O BigQuery usa tipos de dados geográficos e funções geográficas do GoogleSQL para lhe permitir analisar e visualizar dados geoespaciais. Para ver informações sobre estes tipos de dados e funções, consulte o artigo Introdução à estatística geoespacial.

  • Pesquise dados. Pode indexar os seus dados para fazer pesquisas flexíveis e otimizadas em texto não estruturado ou dados JSON semiestruturados.

  • Pesquise Trusted Cloud recursos. Use a pesquisa em linguagem natural (pré-visualização) para descobrir Trusted Cloud recursos no BigQuery.

  • Aprendizagem automática. O BigQuery ML usa consultas GoogleSQL para permitir a criação e a execução de modelos de aprendizagem automática (AA) no BigQuery.

  • Business Intelligence. O BigQuery BI Engine é um serviço rápido de análise na memória que lhe permite criar painéis de controlo e relatórios interativos e detalhados sem comprometer o desempenho, a escalabilidade, a segurança nem a atualização dos dados.

  • Assistência da IA. Pode usar o Gemini no BigQuery para preparar e explorar os seus dados, gerar consultas SQL e código Python, e visualizar os seus resultados.

Exploração de dados

O BigQuery pode ajudar a compreender os seus dados antes de começar a escrever consultas SQL. Use as seguintes funcionalidades se quiser encontrar dados, não conhecer os seus dados, não souber que perguntas fazer ou precisar de ajuda para escrever SQL:

  • Catálogo universal do Dataplex. Encontrar Trusted Cloud recursos no BigQuery, como conjuntos de dados e tabelas.

  • Explorador de tabelas. Explore visualmente o intervalo e a frequência dos valores na sua tabela e crie consultas interativamente.

  • Estatísticas de dados. Gerar perguntas em linguagem natural sobre os seus dados, juntamente com as consultas SQL para responder a essas perguntas.

  • Análise do perfil de dados. Veja as caraterísticas estatísticas dos seus dados, incluindo os valores médios, únicos, máximos e mínimos.

  • Tela de dados. Consultar os seus dados através de linguagem natural, visualizar os resultados com gráficos e fazer perguntas de seguimento.

Consultas

A principal forma de analisar dados no BigQuery é executar uma consulta SQL. O dialeto GoogleSQL suporta SQL:2011 e inclui extensões que suportam a análise geoespacial e a aprendizagem automática.

Origens de dados

O BigQuery permite-lhe consultar os seguintes tipos de origens de dados:

  • Dados armazenados no BigQuery. Pode carregar dados para o BigQuery, modificar dados existentes através de instruções da linguagem de manipulação de dados (DML) ou escrever resultados de consultas numa tabela. Pode consultar dados históricos a partir de um ponto no tempo dentro do seu período de viagem no tempo.

    Pode consultar dados armazenados em localizações de região única ou multirregião, mas não pode executar uma consulta em várias localizações, mesmo que uma seja uma localização de região única e a outra seja a localização multirregião que contém essa localização de região única. Para mais informações, consulte o artigo Localizações, reservas e tarefas.

  • Dados externos. Pode consultar várias origens de dados externas, como o Cloud Storage, ou serviços de bases de dados, como o Spanner ou o Cloud SQL. Para ver informações sobre como configurar ligações a origens externas, consulte o artigo Introdução a origens de dados externas

  • Dados de várias nuvens. Pode consultar dados armazenados noutras nuvens públicas, como a AWS ou o Azure. Para ver informações sobre como configurar associações ao Amazon Simple Storage Service (Amazon S3) ou ao Azure Blob Storage, consulte o artigo Introdução ao BigQuery Omni.

  • Conjuntos de dados públicos. Pode analisar qualquer um dos conjuntos de dados disponíveis no mercado de conjuntos de dados públicos.

  • Partilha do BigQuery (anteriormente Analytics Hub). Pode publicar e subscrever conjuntos de dados do BigQuery e tópicos do Pub/Sub para partilhar dados entre limites organizacionais. Para mais informações, consulte o artigo Introdução à partilha do BigQuery.

Tipos de consultas

Pode consultar dados do BigQuery usando um dos seguintes tipos de tarefas de consulta:

  • Tarefas de consulta interativas. Por predefinição, o BigQuery executa consultas como tarefas de consulta interativas, que se destinam a começar a ser executadas o mais rapidamente possível.

  • Tarefas de consulta em lote. As consultas em lote têm uma prioridade inferior à das consultas interativas. Quando um projeto ou uma reserva usa todos os recursos de computação disponíveis, é mais provável que as consultas em lote sejam colocadas em fila e permaneçam na fila. Depois de uma consulta em lote começar a ser executada, esta é executada da mesma forma que uma consulta interativa. Para mais informações, consulte filas de consultas.

  • Tarefas de consulta contínuas. Com estes trabalhos, a consulta é executada continuamente, o que lhe permite analisar os dados recebidos no BigQuery em tempo real e, em seguida, escrever os resultados numa tabela do BigQuery ou exportá-los para o Bigtable ou o Pub/Sub. Pode usar esta capacidade para realizar tarefas sensíveis ao tempo, como criar e agir imediatamente com base em estatísticas, aplicar inferência de aprendizagem automática (AA) em tempo real e criar pipelines de dados orientados por eventos.

Pode executar tarefas de consulta através dos seguintes métodos:

Consultas com várias declarações

Pode executar várias declarações numa sequência, com estado partilhado, usando consultas com várias declarações. As consultas com várias declarações são frequentemente usadas em procedimentos armazenados e suportam declarações de linguagem processual, que lhe permitem definir variáveis e implementar o fluxo de controlo.

Consultas guardadas e partilhadas

O BigQuery permite-lhe guardar consultas e partilhar consultas com outras pessoas.

Quando guarda uma consulta, esta pode ser privada (visível apenas para si), partilhada ao nível do projeto (visível para responsáveis específicos) ou pública (qualquer pessoa pode vê-la). Para mais informações, consulte o artigo Trabalhe com consultas guardadas.

Como o BigQuery processa consultas

O BigQuery executa vários processos quando executa uma consulta:

  • Árvore de execução. Quando executa uma consulta, o BigQuery gera uma árvore de execução que divide a consulta em fases. Estas fases contêm passos que podem ser executados em paralelo.

  • Nível de aleatoriedade. As fases comunicam entre si através de uma camada de mistura distribuída e rápida que armazena dados intermédios produzidos pelos trabalhadores de uma fase. Sempre que possível, o nível de aleatorização tira partido de tecnologias como uma rede de petabits e RAM para mover rapidamente os dados para os nós de trabalho.

  • Plano de consulta. Quando o BigQuery tem todas as informações necessárias para executar uma consulta, gera um plano de consulta. Pode ver o plano de consulta na Trusted Cloud consola e usá-lo para resolver problemas ou otimizar o desempenho das consultas.

  • Gráfico de execução de consultas. Pode rever as informações do plano de consulta em formato gráfico para qualquer consulta, quer esteja em execução ou concluída, e ver estatísticas de desempenho para ajudar a otimizar as suas consultas.

  • Monitorização de consultas e planeamento dinâmico. Além dos trabalhadores que executam o trabalho do próprio plano de consulta, os trabalhadores adicionais monitorizam e direcionam o progresso geral do trabalho em todo o sistema. À medida que a consulta avança, o BigQuery pode ajustar dinamicamente o plano de consulta para se adaptar aos resultados das várias fases.

  • Resultados da consulta. Quando uma consulta é concluída, o BigQuery escreve os resultados no armazenamento persistente e devolve-os ao utilizador. Esta conceção permite que o BigQuery forneça resultados em cache na próxima vez que a consulta for executada.

Simultaneidade e desempenho das consultas

O desempenho das consultas executadas repetidamente nos mesmos dados pode variar devido à natureza partilhada do ambiente do BigQuery, à utilização de resultados de consultas em cache ou porque o BigQuery ajusta dinamicamente o plano de consulta enquanto a consulta é executada. Para um sistema ocupado típico em que muitas consultas são executadas em simultâneo, o BigQuery usa vários processos para suavizar as variações no desempenho das consultas:

  • O BigQuery executa muitas consultas em paralelo e pode colocar consultas em fila de espera para execução quando os recursos estiverem disponíveis.

  • À medida que as consultas começam e terminam, o BigQuery redistribui os recursos de forma equitativa entre as consultas novas e em execução. Este processo garante que o desempenho das consultas não depende da ordem em que as consultas são enviadas, mas sim do número de consultas executadas num determinado momento.

Otimização de consultas

Quando executa uma consulta, pode ver o plano de consulta na Trusted Cloud consola. Também pode pedir detalhes de execução através das INFORMATION_SCHEMA.JOBS* visualizações ou do jobs.get método da API REST.

O plano de consulta inclui detalhes sobre as fases e os passos da consulta. Estes detalhes podem ajudar a identificar formas de melhorar o desempenho das consultas. Por exemplo, se reparar que uma fase escreve muito mais resultados do que outras fases, pode significar que tem de filtrar mais cedo na consulta.

Para mais informações sobre o plano de consulta e a otimização de consultas, consulte os seguintes recursos:

Monitorização de consultas

A monitorização e o registo são cruciais para executar aplicações fiáveis na nuvem. As cargas de trabalho do BigQuery não são exceção, especialmente se a sua carga de trabalho tiver volumes elevados ou for essencial. O BigQuery oferece várias métricas, registos e visualizações de metadados para ajudar a monitorizar a sua utilização do BigQuery.

Para obter mais informações, consulte os seguintes recursos:

Preços de consultas

O BigQuery oferece dois modelos de preços para a análise:

Para obter informações sobre os dois modelos de preços e saber mais sobre como fazer reservas para preços baseados na capacidade, consulte o artigo Introdução às reservas.

Quotas e controlos de custos de consultas

O BigQuery aplica quotas ao nível do projeto na execução de consultas. Para ver informações sobre as quotas de consultas, consulte Quotas e limites.

Para controlar os custos das consultas, o BigQuery oferece várias opções, incluindo quotas personalizadas e alertas de faturação. Para mais informações, consulte o artigo Criar controlos de custos personalizados.

Funcionalidades de análise de dados

O BigQuery suporta estatísticas descritivas e preditivas e ajuda a explorar os seus dados com ferramentas baseadas em IA, SQL, aprendizagem automática, blocos de notas e outras integrações de terceiros.

BigQuery Studio

O BigQuery Studio ajuda a descobrir, analisar e executar a inferência em dados no BigQuery com as seguintes funcionalidades:

BigQuery ML

O BigQuery ML permite-lhe usar SQL no BigQuery para realizar aprendizagem automática (AA) e estatísticas preditivas. Para mais informações, consulte o artigo Introdução ao BigQuery ML.

Integração de ferramentas de análise

Além de executar consultas no BigQuery, pode analisar os seus dados com várias ferramentas de estatísticas e Business Intelligence que se integram com o BigQuery, como as seguintes:

  • Looker. O Looker é uma plataforma empresarial para Business Intelligence, aplicações de dados e estatísticas incorporadas. A plataforma Looker funciona com muitos repositórios de dados, incluindo o BigQuery. Para obter informações sobre como ligar o Looker ao BigQuery, consulte o artigo Usar o Looker.

  • Looker Studio. Depois de executar uma consulta, pode iniciar o Looker Studio diretamente a partir do BigQuery na Trusted Cloud consola. Em seguida, no Looker Studio, pode criar visualizações e explorar os dados devolvidos pela consulta. Para ver informações sobre o Looker Studio, consulte o artigo Vista geral do Looker Studio.

  • Páginas associadas. Também pode iniciar as páginas associadas diretamente a partir do BigQuery na consola. A funcionalidade Connected Sheets executa consultas do BigQuery em seu nome quando solicitado ou num horário definido. Os resultados dessas consultas são guardados na folha de cálculo para análise e partilha. Para informações sobre as páginas associadas, consulte Usar páginas associadas.

  • Tableau. Pode associar-se a um conjunto de dados do Tableau. Use o BigQuery para otimizar os seus gráficos, painéis de controlo e outras visualizações de dados.

Integração de ferramentas de terceiros

Várias ferramentas de estatísticas de terceiros funcionam com o BigQuery. Por exemplo, pode associar o Tableau aos dados do BigQuery e usar as respetivas ferramentas de visualização para analisar e partilhar a sua análise. Para mais informações sobre as considerações ao usar ferramentas de terceiros, consulte o artigo Integração de ferramentas de terceiros.

Os controladores ODBC e JDBC estão disponíveis e podem ser usados para integrar a sua aplicação com o BigQuery. O objetivo destes controladores é ajudar os utilizadores a tirar partido do poder do BigQuery com as ferramentas e a infraestrutura existentes. Para informações sobre a versão mais recente e problemas conhecidos, consulte o artigo Controladores ODBC e JDBC para o BigQuery.

As bibliotecas pandas, como pandas-gbq, permitem-lhe interagir com os dados do BigQuery em blocos de notas do Jupyter. Para informações sobre esta biblioteca e como se compara com a utilização da biblioteca cliente Python do BigQuery, consulte a comparação com pandas-gbq.

Também pode usar o BigQuery com outros blocos de notas e ferramentas de análise. Para mais informações, consulte o artigo Ferramentas de análise programática.

Para ver uma lista completa de parceiros de estatísticas do BigQuery e de tecnologia mais abrangente, consulte a lista de Parceiros na página do produto BigQuery.

O que se segue?