Introduzione alla preparazione dei dati di BigQuery

Questo documento descrive la preparazione dei dati aumentata dall'AI in BigQuery. Le preparazioni dei dati sono risorse BigQuery, che utilizzano Gemini in BigQuery per analizzare i tuoi dati e fornire suggerimenti intelligenti per la pulizia, la trasformazione e l'arricchimento. Puoi ridurre notevolmente il tempo e l'impegno necessari per le attività di preparazione manuale dei dati. La pianificazione delle preparazioni dei dati è gestita da Dataform.

Vantaggi

  • Puoi ridurre il tempo dedicato allo sviluppo della pipeline di dati con suggerimenti per la trasformazione sensibili al contesto e generati da Gemini.
  • Puoi convalidare i risultati generati in un'anteprima e ricevere suggerimenti per la pulizia e l'arricchimento della qualità dei dati con la mappatura automatica dello schema.
  • Dataform ti consente di utilizzare un processo di integrazione e sviluppo continui (CI/CD), supportando la collaborazione tra team per le revisioni del codice e il controllo del codice sorgente.

Punti di ingresso per la preparazione dei dati

Puoi creare e gestire le preparazioni dei dati nella pagina BigQuery Studio (vedi Aprire l'editor di preparazione dei dati in BigQuery).

Quando apri una tabella in BigQuery Data Prep, viene eseguito un job BigQuery utilizzando le tue credenziali. L'esecuzione crea righe di esempio dalla tabella scelta e scrive i risultati in una tabella temporanea nello stesso progetto. Gemini utilizza i dati di esempio e lo schema per generare suggerimenti per la preparazione dei dati visualizzati nell'editor di preparazione dei dati.

Visualizzazioni nell'editor di preparazione dei dati

Le preparazioni dei dati vengono visualizzate come schede nella pagina BigQuery. Ogni scheda contiene una serie di schede secondarie o visualizzazioni di preparazione dei dati, in cui puoi progettare e gestire le preparazioni dei dati.

Visualizzazione dati

Quando crei una nuova preparazione dei dati, si apre una scheda dell'editor di preparazione dei dati che mostra la visualizzazione dei dati, contenente un campione rappresentativo della tabella. Per le preparazioni dei dati esistenti, puoi passare alla visualizzazione dei dati facendo clic su un nodo nella visualizzazione a grafico della pipeline di preparazione dei dati.

La visualizzazione dei dati ti consente di:

  • Interagisci con i dati per formare i passaggi di preparazione dei dati.
  • Applica i suggerimenti di Gemini.
  • Migliora la qualità dei suggerimenti di Gemini inserendo valori di esempio nelle celle.

Sopra ogni colonna della tabella, un profilo statistico (un istogramma) mostra il conteggio dei valori principali di ogni colonna nelle righe di anteprima.

Visualizzazione dei dati nell'editor di preparazione dei dati

Visualizzazione grafico

La visualizzazione a grafico è una panoramica visiva della preparazione dei dati. Viene visualizzato come scheda nella pagina BigQuery della console quando apri una preparazione dei dati. Il grafico mostra i nodi per tutti i passaggi della pipeline di preparazione dei dati. Puoi selezionare un nodo del grafico per configurare i passaggi di preparazione dei dati che rappresenta.

Visualizzazione a grafico nell'editor di preparazione dei dati

Visualizzazione schema

La visualizzazione dello schema di preparazione dei dati mostra lo schema attuale del passaggio di preparazione dei dati attivo. Lo schema mostrato corrisponde alle colonne della visualizzazione dei dati.

Nella visualizzazione dello schema, puoi eseguire operazioni dedicate allo schema, ad esempio rimuovere colonne, che crea anche passaggi nell'elenco Passaggi applicati.

Visualizzazione dello schema nell'editor di preparazione dei dati

Suggerimenti di Gemini

Gemini fornisce suggerimenti sensibili al contesto per assistere nelle seguenti attività di preparazione dei dati:

  • Applicazione di trasformazioni e regole sulla qualità dei dati
  • Standardizzazione e arricchimento dei dati
  • Automatizzare la mappatura dello schema

Ogni suggerimento viene visualizzato in una scheda nell'elenco dei suggerimenti dell'editor di preparazione dei dati. La scheda contiene le seguenti informazioni:

  • La categoria di alto livello del passaggio, ad esempio Conserva righe o Trasformazione
  • Una descrizione del passaggio, ad esempio Conserva righe se COLUMN_NAME non è NULL
  • L'espressione SQL corrispondente utilizzata per eseguire il passaggio

Puoi visualizzare in anteprima, modificare o applicare la scheda dei suggerimenti oppure perfezionare il suggerimento. Puoi anche aggiungere passaggi manualmente. Per saperne di più, consulta Preparare i dati con Gemini.

Per perfezionare i suggerimenti di Gemini, fornisci un esempio di cosa modificare in una colonna.

Campionamento dei dati

BigQuery utilizza il campionamento dei dati per fornire un'anteprima della preparazione dei dati. Puoi visualizzare il campione nella visualizzazione dei dati per ogni nodo.

Quando aggiungi tabelle standard BigQuery come origine, i dati vengono preparati utilizzando una funzione TABLESAMPLE di BigQuery. Questa funzione crea un campione di 10.000 record.

Quando aggiungi una visualizzazione o una tabella esterna come origine, il sistema legge i primi 1 milione di record. Da questi record, il sistema seleziona un campione rappresentativo di 10.000 record.

I dati nel campione non vengono aggiornati automaticamente. Le tabelle di esempio vengono archiviate come risultati della query memorizzati nella cache e scadono dopo circa 24 ore. Per aggiornare manualmente la tabella di esempio, consulta Aggiornare gli esempi di preparazione dei dati.

Modalità di scrittura

Per ottimizzare i costi e il tempo di elaborazione, puoi modificare le impostazioni della modalità di scrittura per elaborare in modo incrementale i nuovi dati dall'origine. Ad esempio, se hai una tabella in BigQuery in cui i record vengono inseriti quotidianamente e una dashboard Looker che deve riflettere i dati modificati, puoi pianificare la preparazione dei dati BigQuery in modo da leggere in modo incrementale i nuovi record dalla tabella di origine e propagarli alla tabella di destinazione.

Per configurare la modalità di scrittura della preparazione dei dati in una tabella di destinazione, consulta Ottimizzare la preparazione dei dati elaborandoli in modo incrementale.

Sono supportate le seguenti modalità di scrittura:

Opzione della modalità di scrittura Descrizione
Aggiornamento completo Esegue i passaggi di preparazione dei dati su tutti i dati di origine, quindi ricostruisce completamente la tabella di destinazione. La tabella viene ricreata, non troncata. L'aggiornamento completo è la modalità predefinita per la scrittura in una tabella di destinazione.
Aggiungi Inserisce tutti i dati della preparazione dei dati come righe aggiuntive nella tabella di destinazione.
Incrementale Inserisce solo i dati nuovi o, a seconda della scelta della colonna incrementale, modificati nella tabella di destinazione. In base alla scelta della colonna incrementale, la preparazione dei dati selezionerà il meccanismo ottimale di rilevamento dei record di modifica. Seleziona i valori massimi per i tipi di dati numerici e datetime e Unique per i dati categorici. Inserisce solo i record in cui il valore della colonna specificata è maggiore del valore massimo per la stessa colonna nella tabella di destinazione. Gli inserimenti univoci registrano solo i valori delle colonne specificate che non sono presenti nei valori esistenti per la stessa colonna nella tabella di destinazione.

Passaggi di preparazione dei dati supportati

BigQuery supporta i seguenti tipi di passaggi di preparazione dei dati:

Tipo di passaggio Descrizione
Origine Aggiunge un'origine quando selezioni una tabella BigQuery da cui leggere o quando aggiungi un passaggio di unione.
Trasformazione Pulisce e trasforma i dati utilizzando un'espressione SQL. Ricevi schede di suggerimenti per le seguenti espressioni:
  • Funzioni di conversione del tipo, come CAST
  • Funzioni stringa, ad esempio SUBSTR, CONCAT, REPLACE, UPPER, LOWER e TRIM
  • Funzioni di data e ora, come PARSE_DATE, TIMESTAMP, EXTRACT e DATE_ADD
  • Funzioni JSON, come JSON_VALUE o JSON_QUERY

Puoi anche utilizzare qualsiasi espressione SQL di BigQuery valida nei passaggi di trasformazione manuale. Ad esempio:
  • Matematica con numeri, ad esempio conversione di wattora in kilowattora
  • Funzioni di array, ad esempio ARRAY_AGG, ARRAY_CONCAT e UNNEST
  • Funzioni finestra, come ROW_NUMBER, LAG, LEAD, RANK e NTILE


Per ulteriori informazioni, vedi Aggiungere una trasformazione.
Filtro Rimuove le righe tramite la sintassi della clausola WHERE. Quando aggiungi un passaggio di filtro, puoi scegliere di trasformarlo in un passaggio di convalida.

Per saperne di più, vedi Filtrare le righe.
Convalida Invia a una tabella degli errori le righe che non soddisfano i criteri della regola di convalida. Se i dati non soddisfano la regola di convalida e non è configurata alcuna tabella degli errori, la preparazione dei dati non riesce durante l'esecuzione.

Per ulteriori informazioni, vedi Configurare la tabella degli errori e aggiungere una regola di convalida.
Partecipa Unisce i valori di due origini. Le tabelle devono trovarsi nella stessa posizione. Le colonne delle chiavi di join devono essere dello stesso tipo di dati. Le preparazioni dei dati supportano le seguenti operazioni di unione:
  • Inner join
  • Left join
  • Right join
  • Full outer join
  • Cross Join (se non vengono selezionate colonne della chiave di join, viene utilizzato un cross join)


Per maggiori informazioni, vedi Aggiungere un'operazione di unione.
Destinazione Definisce una destinazione per l'output dei passaggi di preparazione dei dati. Se inserisci una tabella di destinazione inesistente, la preparazione dei dati ne crea una nuova utilizzando le informazioni dello schema attuale.

Per maggiori informazioni, vedi Aggiungere o modificare una tabella di destinazione.
Elimina colonne Elimina le colonne dallo schema. Esegui questo passaggio dalla visualizzazione dello schema.

Per saperne di più, vedi Eliminare una colonna.

Pianificazione delle esecuzioni della preparazione dei dati

Per eseguire i passaggi di preparazione dei dati e caricare i dati preparati nella tabella di destinazione, crea una pianificazione. Puoi pianificare le preparazioni dei dati dall'editor di preparazione dei dati e gestirle dalla pagina Pianificazione di BigQuery. Per saperne di più, consulta Pianificare le preparazioni dei dati.

Creare pipeline con attività di preparazione dei dati

Puoi creare pipeline BigQuery composte da attività di preparazione dei dati, query SQL e notebook. Puoi quindi eseguire queste pipeline in base a una pianificazione. Per ulteriori informazioni, vedi Introduzione alle pipeline BigQuery.

Controllo dell'accesso

Controlla l'accesso alle preparazioni dei dati utilizzando i ruoli Identity and Access Management (IAM), la crittografia con le chiavi BigQuery e Dataform Cloud KMS e i Controlli di servizio VPC.

Ruoli e autorizzazioni IAM

Gli utenti che preparano i dati e i service account Dataform che eseguono i job richiedono autorizzazioni IAM. Per maggiori informazioni, consulta Ruoli richiesti e Configurare Gemini in BigQuery.

Crittografia con chiavi Cloud KMS

Cripta i dati a livello di set di dati o progetto utilizzando le chiavi Cloud KMS gestite dal cliente predefinite in BigQuery. Per maggiori informazioni, consulta Impostare una chiave predefinita per un set di dati e Impostare una chiave predefinita per un progetto.

Per impostazione predefinita, puoi criptare il codice della pipeline a livello di progetto utilizzando una chiave Cloud KMS di Dataform.

Perimetri dei Controlli di servizio VPC

Se utilizzi Controlli di servizio VPC, devi configurare il perimetro per proteggere Dataform e BigQuery. Per ulteriori informazioni, consulta le limitazioni dei Controlli di servizio VPC per BigQuery e Dataform.

Limitazioni

La preparazione dei dati è disponibile con le seguenti limitazioni:

  • Tutti i set di dati di origine e di destinazione della preparazione dei dati di BigQuery di una determinata preparazione dei dati devono trovarsi nella stessa località. Per ulteriori informazioni, consulta la sezione Località.
  • Durante la modifica della pipeline, i dati e le interazioni vengono inviati a un data center Gemini per l'elaborazione. Per ulteriori informazioni, consulta Località.
  • Gemini in BigQuery non è supportato da Assured Workloads.
  • Le preparazioni dei dati di BigQuery non supportano la visualizzazione, il confronto o il ripristino delle versioni di preparazione dei dati.
  • Le risposte di Gemini si basano su un campione del set di dati che fornisci quando progetti la pipeline di preparazione dei dati. Per ulteriori informazioni, vedi In che modo Gemini per Trusted Cloud utilizza i tuoi dati e i termini del programma Trusted Tester di Gemini per Trusted Cloud .
  • La preparazione dei dati di BigQuery non ha una propria API. Per le API necessarie, consulta Configura Gemini in BigQuery.

Località

Puoi utilizzare la preparazione dei dati in qualsiasi posizione BigQuery supportata. I job di elaborazione dei dati vengono eseguiti e memorizzati nella posizione dei set di dati di origine. Se viene specificata una posizione del repository, deve essere la stessa dei set di dati di origine. La regione di archiviazione del codice di preparazione dei dati può essere diversa dalla regione di esecuzione del job.

Tutti gli asset di codice in BigQuery Studio utilizzano la stessa regione predefinita. Per impostare la regione predefinita per gli asset di codice:

  1. Vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, trova il progetto in cui hai attivato gli asset di codice.

  3. Fai clic su Visualizza azioni accanto al progetto, quindi fai clic su Modifica la mia regione di codice predefinita.

  4. Per Regione, seleziona la regione che vuoi utilizzare per gli asset di codice.

  5. Fai clic su Seleziona.

Per un elenco delle regioni in cui è disponibile, consulta Località di BigQuery Studio.

Gemini in BigQuery opera a livello globale, quindi non puoi limitare l'elaborazione dei dati di Gemini a una regione specifica quando progetti le preparazioni dei dati, anche se l'elaborazione dei dati di BigQuery in fase di progettazione ed esecuzione viene sempre eseguita nella posizione dei set di dati di origine. Per scoprire di più sulle località in cui Gemini in BigQuery elabora i dati, consulta Località di pubblicazione di Gemini.

Prezzi

L'esecuzione delle preparazioni dei dati e la creazione di campioni di anteprima dei dati utilizzano le risorse BigQuery, che vengono addebitate alle tariffe mostrate nei prezzi di BigQuery.

La preparazione dei dati è inclusa nei prezzi di Gemini in BigQuery. Puoi utilizzare la preparazione dei dati BigQuery durante l'anteprima senza costi aggiuntivi. Per saperne di più, vedi Configura Gemini in BigQuery.

Quote

Per ulteriori informazioni, consulta le quote per Gemini in BigQuery.

Passaggi successivi