Algumas ou todas as informações nesta página podem não se aplicar ao Cloud de Confiance by S3NS. Consulte o artigo Diferenças em relação ao Google Cloud para mais detalhes.

Esta página foi traduzida pela API Cloud Translation.

Usar a deteção automática de esquemas

Deteção automática do esquema

A deteção automática de esquemas permite ao BigQuery inferir o esquema para dados CSV, JSON ou do Google Sheets. A deteção automática de esquemas está disponível quando carrega dados para o BigQuery e quando consulta uma origem de dados externa.

Quando a deteção automática está ativada, o BigQuery infere o tipo de dados de cada coluna. O BigQuery seleciona um ficheiro aleatório na origem de dados e analisa até às primeiras 500 linhas de dados para usar como amostra representativa. Em seguida, o BigQuery examina cada campo e tenta atribuir um tipo de dados a esse campo com base nos valores no exemplo. Se todas as linhas numa coluna estiverem vazias, a deteção automática usa o tipo de dados STRING para a coluna.

Se não ativar a deteção automática de esquemas para dados CSV, JSON ou do Google Sheets, tem de fornecer o esquema manualmente quando criar a tabela.

Não tem de ativar a deteção automática de esquemas para ficheiros Avro, Parquet, ORC, de exportação do Firestore ou de exportação do Datastore. Estes formatos de ficheiros são autodescritivos, pelo que o BigQuery infere automaticamente o esquema da tabela a partir dos dados de origem. Para ficheiros Parquet, Avro e Orc, pode fornecer opcionalmente um esquema explícito para substituir o esquema inferido.

Pode ver o esquema detetado para uma tabela das seguintes formas:

Use a Cloud de Confiance consola.
Use o comando bq show da ferramenta de linhas de comando bq.

Quando o BigQuery deteta esquemas, pode, em raras ocasiões, alterar o nome de um campo para o tornar compatível com a sintaxe do GoogleSQL.

Para obter informações sobre conversões de tipos de dados, consulte o seguinte:

Conversão do tipo de dados ao carregar dados do Datastore
Conversão do tipo de dados ao carregar dados do Firestore
Conversões de Avro
Conversões de parquet
Conversões de ORC

Carregar dados através da deteção automática de esquemas

Para ativar a deteção automática do esquema ao carregar dados, use uma destas abordagens:

Na Cloud de Confiance consola, na secção Esquema, para Detetar automaticamente, selecione a opção Esquema e parâmetros de entrada.
Na ferramenta de linhas de comando bq, use o comando bq load com o parâmetro --autodetect.

Quando a deteção automática de esquemas está ativada, o BigQuery faz uma tentativa de melhor esforço para inferir automaticamente o esquema para ficheiros CSV e JSON. A lógica de deteção automática infere os tipos de campos de esquema lendo até às primeiras 500 linhas de dados. As linhas iniciais são ignoradas se a flag --skip_leading_rows estiver presente. Os tipos de campos baseiam-se nas linhas com mais campos. Por conseguinte, a deteção automática deve funcionar como esperado, desde que exista, pelo menos, uma linha de dados com valores em todas as colunas/campos.

A deteção automática do esquema não é usada com ficheiros Avro, ficheiros Parquet, ficheiros ORC, ficheiros de exportação do Firestore ou ficheiros de exportação do Datastore. Quando carrega estes ficheiros para o BigQuery, o esquema da tabela é automaticamente obtido dos dados de origem autodescritivos.

Para usar a deteção automática de esquemas quando carrega dados JSON ou CSV:

Consola

Na Cloud de Confiance consola, aceda à página do BigQuery.

Aceda ao BigQuery
No painel esquerdo, clique em Explorador:

Se não vir o painel do lado esquerdo, clique em Expandir painel do lado esquerdo para o abrir.
No painel Explorador, expanda o seu projeto, clique em Conjuntos de dados e, de seguida, clique no seu conjunto de dados.
No painel de detalhes, clique em Criar tabela.
Na página Criar tabela, na secção Origem:
- Em Criar tabela a partir de, selecione o tipo de origem pretendido.
- No campo de origem, procure o ficheiro/contentor do Cloud Storage ou introduza o URI do Cloud Storage. Tenha em atenção que não pode incluir vários URIs na Cloud de Confiance consola, mas oscaracteres universais são suportados. O contentor do Cloud Storage tem de estar na mesma localização que o conjunto de dados que contém a tabela que está a criar.
- Em Formato de ficheiro, selecione CSV ou JSON.
Na página Criar tabela, na secção Destino:
- Em Nome do conjunto de dados, escolha o conjunto de dados adequado.
- No campo Nome da tabela, introduza o nome da tabela que está a criar.
- Verifique se o Tipo de tabela está definido como Tabela nativa.
Clique em Criar tabela.

bq

Emita o comando bq load com o parâmetro --autodetect.

(Opcional) Forneça a flag --location e defina o valor para a sua localização.

O comando seguinte carrega um ficheiro através da deteção automática do esquema:

bq --location=LOCATION load \
--autodetect \
--source_format=FORMAT \
DATASET.TABLE \
PATH_TO_SOURCE

Substitua o seguinte:

LOCATION: o nome da sua localização. A flag --location é opcional. Por exemplo, se estiver a usar o BigQuery na região de Tóquio, defina o valor da flag como asia-northeast1. Pode predefinir um valor para a localização através do ficheiro.bigqueryrc.
FORMAT: NEWLINE_DELIMITED_JSON ou CSV.
DATASET: o conjunto de dados que contém a tabela para a qual está a carregar dados.
TABLE: o nome da tabela para a qual está a carregar dados.
PATH_TO_SOURCE: é a localização do ficheiro CSV ou JSON.

Exemplos:

Introduza o seguinte comando para carregar myfile.csv do seu computador local para uma tabela denominada mytable, que está armazenada num conjunto de dados denominado mydataset.

bq load --autodetect --source_format=CSV mydataset.mytable ./myfile.csv

Introduza o seguinte comando para carregar myfile.json do seu computador local para uma tabela denominada mytable, que está armazenada num conjunto de dados denominado mydataset.

bq load --autodetect --source_format=NEWLINE_DELIMITED_JSON \
mydataset.mytable ./myfile.json

API

Crie uma tarefa load que aponte para os dados de origem. Para informações sobre como criar tarefas, consulte o artigo Executar tarefas do BigQuery por programação. Especifique a sua localização na propriedade location na secção jobReference.
Especifique o formato de dados definindo a propriedade sourceFormat. Para usar a deteção automática de esquemas, este valor tem de ser definido como NEWLINE_DELIMITED_JSON ou CSV.
Use a propriedade autodetect para definir a deteção automática de esquemas como true.