Alcune o tutte le informazioni in questa pagina potrebbero non essere applicabili a Cloud de Confiance di S3NS. Per maggiori dettagli, consulta Differenze rispetto a Google Cloud.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Trasforma le traduzioni SQL utilizzando i file YAML di configurazione

Questo documento mostra come utilizzare i file YAML di configurazione per trasformare il codice SQL durante la relativa migrazione a BigQuery. Fornisce linee guida per creare i tuoi file YAML di configurazione e fornisce esempi per varie trasformazioni di traduzione supportate da questa funzionalità.

Quando utilizzi il traduttore SQL interattivo di BigQuery, l'API BigQuery Migration o esegui una traduzione SQL batch, puoi fornire file YAML di configurazione per modificare una traduzione di query SQL. L'utilizzo dei file YAML di configurazione consente un'ulteriore personalizzazione durante la traduzione delle query SQL dal database di origine.

Puoi specificare un file YAML di configurazione da utilizzare in una traduzione SQL nei seguenti modi:

Se utilizzi il traduttore SQL interattivo, specifica il percorso del file di configurazione o l'ID job di traduzione batch nelle impostazioni di traduzione.
Se utilizzi l'API BigQuery Migration, inserisci il file YAML di configurazione nello stesso bucket Cloud Storage dei file SQL di input.
Se esegui una traduzione SQL batch, inserisci il file YAML di configurazione nello stesso bucket Cloud Storage dei file SQL di input.
Se utilizzi il client Python per la traduzione batch, inserisci il file YAML di configurazione nella cartella di input della traduzione locale.

Il traduttore SQL interattivo, l'API BigQuery Migration, il traduttore SQL batch e il client Python di traduzione batch supportano l'utilizzo di più file YAML di configurazione in un singolo job di traduzione. Per saperne di più, consulta la sezione Applicazione di più configurazioni YAML.

Requisiti del file YAML di configurazione

Prima di creare un file YAML di configurazione, esamina le seguenti informazioni per assicurarti che il file YAML sia compatibile con l'utilizzo con BigQuery Migration Service:

Devi caricare i file YAML di configurazione nella directory del bucket Cloud Storage che contiene i file di input per la traduzione SQL. Per informazioni su come creare bucket e caricare file in Cloud Storage, consulta Crea bucket e Carica oggetti da un file system.
Le dimensioni di un singolo file YAML di configurazione non devono superare 1 MB.
La dimensione totale di tutti i file YAML di configurazione utilizzati in un singolo job di traduzione SQL non deve superare 4 MB.
Se utilizzi la sintassi regex per la corrispondenza dei nomi, utilizza RE2/J.
Tutti i nomi dei file YAML di configurazione devono includere un'estensione .config.yaml, ad esempio change-case.config.yaml.
- config.yaml da solo non è un nome valido per il file di configurazione.

Linee guida per creare un file YAML di configurazione

Questa sezione fornisce alcune linee guida generali per creare un file YAML di configurazione:

Ogni file di configurazione deve contenere un'intestazione che specifica il tipo di configurazione. Il tipo object_rewriter viene utilizzato per specificare le traduzioni SQL in un file YAML di configurazione. L'esempio seguente utilizza il tipo object_rewriter per trasformare la maiuscola di un nome:

type: object_rewriter
global:
  case:
    all: UPPERCASE

Selezione delle entità

Per eseguire trasformazioni specifiche per l'entità, specifica l'entità nel file di configurazione. Tutte le proprietà match sono facoltative; utilizza solo le proprietà match necessarie per una trasformazione. Il seguente YAML di configurazione espone le proprietà da abbinare per selezionare entità specifiche:

match:
  database: <literal_name>
  schema: <literal_name>
  relation: <literal_name>
  attribute: <literal_name>
  databaseRegex: <regex>
  schemaRegex: <regex>
  relationRegex: <regex>
  attributeRegex: <regex>

Descrizione di ogni proprietà match:

database o db: il componente project_id.
schema: il componente del set di dati.
relation: il componente tabella.
attribute: il componente della colonna. Valido solo per la selezione degli attributi
databaseRegex o dbRegex: corrisponde a una proprietà database con un'espressione regolare (anteprima).
schemaRegex: associa le proprietà schema alle espressioni regolari (anteprima).
relationRegex: corrisponde alle proprietà relation con espressioni regolari (anteprima).
attributeRegex: corrisponde alle proprietà attribute con espressioni regolari. Valido solo per la selezione degli attributi (Anteprima).

Ad esempio, il seguente YAML di configurazione specifica le proprietà match per selezionare la tabella testdb.acme.employee per una trasformazione della tabella temporanea.

type: object_rewriter
relation:
-
  match:
    database: testdb
    schema: acme
    relation: employee
  temporary: true

Puoi utilizzare le proprietà databaseRegex, schemaRegex, relationRegex e attributeRegex per specificare espressioni regolari al fine di selezionare un sottoinsieme di entità. L'esempio seguente modifica tutte le relazioni dallo schema tmp_schema in testdb in temporanee, a condizione che il loro nome inizi con tmp_:

type: object_rewriter
relation:
-
  match:
    schema: tmp_schema
    relationRegex: "tmp_.*"
  temporary: true

Le proprietà letterali e regex vengono confrontate senza distinzione tra maiuscole e minuscole. Puoi applicare la corrispondenza sensibile alle maiuscole e minuscole utilizzando un regex con il flag i disattivato, come mostrato nell'esempio seguente:

match:
  relationRegex: "(?-i:<actual_regex>)"

Puoi anche specificare entità complete utilizzando una sintassi di stringa breve equivalente. Una sintassi di stringa breve prevede esattamente 3 (per la selezione della relazione) o 4 (per la selezione dell'attributo) segmenti di nome delimitati da punti, come nell'esempio testdb.acme.employee. I segmenti vengono poi interpretati internamente come se fossero stati passati rispettivamente come database, schema, relation e attribute. Ciò significa che i nomi vengono confrontati letteralmente, quindi le espressioni regolari non sono consentite nella sintassi breve. L'esempio seguente mostra l'utilizzo della sintassi della stringa breve per specificare un'entità completa in un file YAML di configurazione:

type: object_rewriter
relation:
-
  match : "testdb.acme.employee"
  temporary: true

Se una tabella contiene un punto nel nome, non puoi specificare il nome utilizzando una sintassi abbreviata. In questo caso, devi utilizzare una corrispondenza esatta. L'esempio seguente modifica la tabella testdb.acme.stg.employee in temporanea:

type: object_rewriter
relation:
-
  match:
    database: testdb
    schema: acme
    relation: stg.employee
  temporary: true

Il file YAML di configurazione accetta key come alias di match.

Database predefinito

Alcuni dialetti SQL di input, in particolare Teradata, non supportano database-name nel nome qualificato. In questo caso, il modo più semplice per abbinare le entità è omettere la proprietà database in match.

Tuttavia, puoi impostare la proprietà default_database di BigQuery Migration Service e utilizzare il database predefinito in match.

Tipi di attributi target supportati

Puoi utilizzare il file YAML di configurazione per eseguire trasformazioni del tipo di attributo, in cui trasformi il tipo di dati di una colonna dal tipo di origine a un tipo di destinazione. Il file YAML di configurazione supporta i seguenti tipi di target:

BOOLEAN
TINYINT
SMALLINT
INTEGER
BIGINT
FLOAT
DOUBLE
NUMERIC (supporta precisione e scala facoltative, ad esempio NUMERIC(18, 2))
TIME
TIMETZ
DATE
DATETIME
TIMESTAMP
TIMESTAMPTZ
CHAR (supporta la precisione facoltativa, ad esempio CHAR(42))
VARCHAR (supporta la precisione facoltativa, ad esempio VARCHAR(42))

Esempi di YAML di configurazione

Questa sezione fornisce esempi per creare vari file YAML di configurazione da utilizzare con le traduzioni SQL. Ogni esempio descrive la sintassi YAML per trasformare la traduzione SQL in modi specifici, insieme a una breve descrizione. Ogni esempio fornisce anche i contenuti di un file teradata-input.sql o hive-input.sql e di un file bq-output.sql in modo da poter confrontare gli effetti di un file YAML di configurazione sulla traduzione di una query SQL BigQuery.

Gli esempi seguenti utilizzano Teradata o Hive come dialetto SQL di input e BigQuery SQL come dialetto di output. Anche gli esempi seguenti utilizzano testdb come database predefinito e testschema come percorso di ricerca dello schema.

Modificare le maiuscole/minuscole del nome dell'oggetto

La seguente configurazione YAML modifica le maiuscole o le minuscole dei nomi degli oggetti:

type: object_rewriter
global:
  case:
    all: UPPERCASE
    database: LOWERCASE
    attribute: LOWERCASE

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

`teradata-input.sql`	create table x(a int); select * from x;
`bq-output.sql`	CREATE TABLE testdb.TESTSCHEMA.X ( a INT64 ) ; SELECT X.a FROM testdb.TESTSCHEMA.X ;

Rendere temporanea la tabella

Il seguente YAML di configurazione trasforma una tabella normale in una tabella temporanea:

type: object_rewriter
relation:
  -
    match: "testdb.testschema.x"
    temporary: true

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

`teradata-input.sql`	create table x(a int);
`bq-output.sql`	CREATE TEMPORARY TABLE x ( a INT64 ) ;

Rendi temporanea la tabella

La seguente configurazione YAML trasforma una tabella normale in una tabella temporanea con una scadenza di 60 secondi.

type: object_rewriter
relation:
  -
    match: "testdb.testschema.x"
    ephemeral:
      expireAfterSeconds: 60

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

`teradata-input.sql`	create table x(a int);
`bq-output.sql`	CREATE TABLE testdb.testschema.x ( a INT64 ) OPTIONS( expiration_timestamp=timestamp_add(current_timestamp(), interval 60 SECOND) );

Impostare la scadenza della partizione

La seguente configurazione YAML modifica la scadenza di una tabella partizionata a 1 giorno:

type: object_rewriter
relation:
  -
    match: "testdb.testschema.x"
    partitionLifetime:
      expireAfterSeconds: 86400

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

`teradata-input.sql`	create table x(a int, b int) partition by (a);
`bq-output.sql`	CREATE TABLE testdb.testschema.x ( a INT64, b INT64 ) CLUSTER BY a OPTIONS( partition_expiration_days=1 );

Modificare la posizione o il formato esterni di una tabella

La seguente configurazione YAML modifica la posizione e il formato esterni di una tabella:

type: object_rewriter
relation:
  -
    match: "testdb.testschema.x"
    external:
      locations: "gs://path/to/department/files"
      format: ORC

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

`teradata-input.sql`	create table x(a int);
`bq-output.sql`	CREATE EXTERNAL TABLE testdb.testschema.x ( a INT64 ) OPTIONS( format='ORC', uris=[ 'gs://path/to/department/files' ] );

Impostare o modificare la descrizione della tabella

Il seguente YAML di configurazione imposta la descrizione di una tabella:

type: object_rewriter
relation:
  -
    match: "testdb.testschema.x"
    description:
      text: "Example description."

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

`teradata-input.sql`	create table x(a int);
`bq-output.sql`	CREATE TABLE testdb.testschema.x ( a INT64 ) OPTIONS( description='Example description.' );

Impostare o modificare il partizionamento delle tabelle

Il seguente YAML di configurazione modifica lo schema di partizionamento di una tabella in modo che venga partizionata in base a una colonna di date:

type: object_rewriter
relation:
  -
    match: "testdb.testschema.x"
    partition:
      simple:
        add: [a]
  -
    match: "testdb.testschema.y"
    partition:
      simple:
        remove: [a]

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

teradata-input.sql

    create table x(a date, b int);
    create table y(a date, b int) partition by (a);

bq-output.sql

    CREATE TABLE testdb.testschema.x
    (
      a DATE,
      b INT64
    )
    PARTITION BY a;
    CREATE TABLE testdb.testschema.y
    (
      a DATE,
      b INT64
    )
    ;

Il seguente YAML di configurazione modifica lo schema di partizionamento di una tabella in modo che venga partizionata per bucket di intervallo:

type: object_rewriter
relation:
-
  key: "testdb.testschema.mytable"
  partition:
    range_bucket:
      column: "id"
      start: 0
      end: 100
      step: 10
      options:
        require_partition_filter: "TRUE"

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

snowflake-input.sql

     create table testschema.mytable (date timestamp_ntz, id number, content variant);

bq-output.sql

     create table testdb.testschema.mytable
      (
        date datetime,
        id int64,
        content json
      )
      partition by range_bucket(id, generate_array(0, 100, 10))
      options(
        require_partition_filter=true
      );

Impostare o modificare il clustering delle tabelle

La seguente configurazione YAML modifica lo schema di clustering di una tabella:

type: object_rewriter
relation:
  -
    match: "testdb.testschema.x"
    clustering:
      add: [a]
  -
    match: "testdb.testschema.y"
    clustering:
      remove: [b]

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

hive-input.sql

    create table x(a int, b int);
    create table y(a int, b int) clustered by (b) into 16 buckets;

bq-output.sql

    CREATE TABLE testdb.testschema.x
    (
      a INT64,
      b INT64
    )
    CLUSTER BY a;
    CREATE TABLE testdb.testschema.y
    (
      a INT64,
      b INT64
    )
    ;

Modificare il tipo di un attributo di colonna

La seguente configurazione YAML modifica il tipo di dati per un attributo di una colonna:

type: object_rewriter
attribute:
  -
    match:
      database: testdb
      schema: testschema
      attributeRegex: "a+"
    type:
      target: NUMERIC(10,2)

Puoi trasformare il tipo di dati di origine in uno qualsiasi dei tipi di attributo target supportati.

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

`teradata-input.sql`	create table x(a int, b int, aa int);
`bq-output.sql`	CREATE TABLE testdb.testschema.x ( a NUMERIC(31, 2), b INT64, aa NUMERIC(31, 2) ) ;

Aggiungere una connessione a un data lake esterno

Il seguente YAML di configurazione contrassegna la tabella di origine come tabella esterna che punta ai dati archiviati in un data lake esterno, specificato da una connessione al data lake.

type: object_rewriter
relation:
-
  key: "testdb.acme.employee"
  external:
    connection_id: "connection_test"

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

`hive-input.sql`	CREATE TABLE x ( a VARCHAR(150), b INT );
`bq-output.sql`	CREATE EXTERNAL TABLE x ( a STRING, b INT64 ) WITH CONNECTION `connection_test` OPTIONS( );

Modificare la codifica dei caratteri di un file di input

Per impostazione predefinita, BigQuery Migration Service tenta di rilevare automaticamente la codifica dei caratteri dei file di input. Nei casi in cui BigQuery Migration Service potrebbe identificare erroneamente la codifica di un file, puoi utilizzare un file YAML di configurazione per specificare esplicitamente la codifica dei caratteri.

Il seguente YAML di configurazione specifica la codifica dei caratteri esplicita del file di input come ISO-8859-1.

type: experimental_input_formats
formats:
- source:
    pathGlob: "*.sql"
  contents:
    raw:
      charset: iso-8859-1

Conversione del tipo globale

La seguente configurazione YAML modifica un tipo di dati in un altro in tutti gli script e specifica un tipo di dati di origine da evitare nello script sottoposto a transpiling. Questa operazione è diversa dalla configurazione Modifica il tipo di un attributo di colonna, in cui viene modificato solo il tipo di dati per un singolo attributo.

BigQuery supporta le seguenti conversioni dei tipi di dati:

Da DATETIME a TIMESTAMP
TIMESTAMP a DATETIME (accetta il fuso orario facoltativo)
TIMESTAMP WITH TIME ZONE a DATETIME (accetta il fuso orario facoltativo)
Da CHAR a VARCHAR

Nell'esempio seguente, la configurazione YAML converte un tipo di dati TIMESTAMP in DATETIME.

type: experimental_object_rewriter
global:
  typeConvert:
    timestamp: DATETIME

Impostazione del fuso orario predefinito

I dialetti del database hanno semantiche e nomi diversi per i vari tipi di dati correlati a data e ora. Il servizio di traduzione standardizza la seguente terminologia nella configurazione YAML, indipendentemente dal nome del tipo di dati del dialetto di input:

Un datetime è una combinazione di Y-M-D H:M:S che non è fissa in nessun fuso orario specifico. datetime rappresenta un'ora effettiva e non un momento particolare.
Un timestamp rappresenta un momento specifico o assoluto e, in quanto tale, è implicitamente associato a un fuso orario specifico, che potrebbe essere un'impostazione a livello di sessione o di database.
Un timestamptz rappresenta un istante particolare come un timestamp, ma a differenza di un timestamp, porta con sé un particolare offset del fuso orario. Sebbene rappresentino lo stesso istante, 2019-06-01 12:00:00+4 e 2019-06-01 06:00:00-2 sono considerati valori timestamptz diversi.

In dialetti come Teradata, le funzioni relative a data e ora come current_date, current_time o current_timestamp restituiscono timestamp basati su un parametro del fuso orario della sessione configurato implicitamente. BigQuery, d'altra parte, restituisce sempre i timestamp in formato UTC. Per garantire un comportamento coerente tra i due dialetti, potrebbe essere necessario configurare un fuso orario di conseguenza.

Ti consigliamo di specificare il fuso orario predefinito per la traduzione se il database di origine ha un valore predefinito diverso da UTC. In questo modo, il comportamento della query tradotta sarà corretto perché il fuso orario viene mantenuto.

Nell'esempio seguente, il file YAML di configurazione converte un tipo di dati TIMESTAMP e un tipo di dati TIMESTAMPTZ in DATETIME, con il fuso orario di destinazione impostato su Europe/Paris.

Per i valori di stringa validi del fuso orario, consulta Fusi orari.

type: experimental_object_rewriter
global:
  typeConvert:
    timestamp:
      target: DATETIME
      timezone: Europe/Paris
    timestamptz:
      target: DATETIME
      timezone: Europe/Paris

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

snowflake-input.sql

      create table x(c_timestamp timestamp_ltz, c_timestamptz timestamp_tz, c_datetime timestamp_ntz);

      select c_timestamp from x where c_timestamp > current_timestamp(0);
      select c_timestamptz from x where c_timestamptz > cast(current_timestamp(0) as timestamp_tz);
      select c_datetime from x where c_datetime > cast(current_timestamp(0) as timestamp_ntz);

bq-output.sql

      CREATE TABLE x
      (
        c_timestamp DATETIME,
        c_timestamptz DATETIME,
        c_datetime DATETIME
      )
      ;
      SELECT
          x.c_timestamp
        FROM
          test.x
        WHERE x.c_timestamp > datetime(current_timestamp(), 'Europe/Paris')
      ;
      SELECT
          x.c_timestamptz
        FROM
          test.x
        WHERE x.c_timestamptz > datetime(current_timestamp(), 'Europe/Paris')
      ;
      SELECT
          x.c_datetime
        FROM
          test.x
        WHERE x.c_datetime > datetime(current_timestamp(), 'Europe/Paris')
      ;

Nell'esempio seguente, il file YAML di configurazione converte un tipo di dati DATETIME in TIMESTAMP.

Per impostazione predefinita, TIMESTAMPTZ viene convertito in TIMESTAMP senza richiedere alcuna configurazione.

type: experimental_object_rewriter
global:
  typeConvert:
    datetime:
      target: TIMESTAMP

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

snowflake-input.sql

      create table x(c_timestamp timestamp_ltz, c_timestamptz timestamp_tz, c_datetime timestamp_ntz);

      select c_timestamp from x where c_timestamp > current_timestamp(0);
      select c_timestamptz from x where c_timestamptz > cast(current_timestamp(0) as timestamp_tz);
      select c_datetime from x where c_datetime > cast(current_timestamp(0) as timestamp_ntz);

bq-output.sql

      CREATE TABLE x
      (
        c_timestamp TIMESTAMP,
        c_timestamptz TIMESTAMP,
        c_datetime TIMESTAMP
      )
      ;
      SELECT
          x.c_timestamp
        FROM
          test.x
        WHERE x.c_timestamp > current_timestamp()
      ;
      SELECT
          x.c_timestamptz
        FROM
          test.x
        WHERE x.c_timestamptz > current_timestamp()
      ;
      SELECT
          x.c_datetime
        FROM
          test.x
        WHERE x.c_datetime > current_timestamp()
      ;

Seleziona modifica della dichiarazione

Il seguente YAML di configurazione modifica la proiezione a stella, GROUP BY, e le clausole ORDER BY nelle istruzioni SELECT.

starProjection supporta le seguenti configurazioni:

ALLOW
PRESERVE (valore predefinito)
EXPAND

groupBy e orderBy supportano le seguenti configurazioni:

EXPRESSION
ALIAS
INDEX

Nell'esempio seguente, il file YAML di configurazione configura la proiezione della stella su EXPAND.

type: experimental_statement_rewriter
select:
  starProjection: EXPAND

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

`teradata-input.sql`	create table x(a int, b TIMESTAMP); select * from x;
`bq-output.sql`	CREATE TABLE x ( a INT64, b DATETIME ) ; SELECT x.a x.b FROM x ;

Specifiche delle funzioni definite dall'utente

Il seguente file YAML di configurazione specifica la firma delle funzioni definite dall'utente (UDF) utilizzate negli script di origine. Come i file zip di metadati, le definizioni di UDF possono contribuire a produrre una traduzione più accurata degli script di input.

type: metadata
udfs:
  - "date parse_short_date(dt int)"

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

`teradata-input.sql`	create table x(dt int); select parse_short_date(dt) + 1 from x;
`bq-output.sql`	CREATE TABLE x ( dt INT64 ) ; SELECT date_add(parse_short_date(x.dt), interval 1 DAY) FROM x ;

Impostazione del livello di rigore della precisione decimale

Per impostazione predefinita, BigQuery Migration Service aumenta la precisione numerica alla massima precisione disponibile per una determinata scala. Il seguente YAML di configurazione esegue l'override di questo comportamento configurando la rigidità della precisione in modo da conservare la precisione decimale dell'istruzione di origine.

type: experimental_statement_rewriter
common:
  decimalPrecision: STRICT

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

`teradata-input.sql`	create table x(a decimal(3,0));
`bq-output.sql`	CREATE TABLE x ( a NUMERIC(3) ) ;

Impostazione della rigidità della precisione della stringa

Per impostazione predefinita, BigQuery Migration Service omette la precisione delle stringhe durante la conversione delle colonne CHAR e VARCHAR. In questo modo è possibile evitare errori di troncamento durante la scrittura dei valori. Alcuni dialetti SQL, come Teradata, troncano i valori che superano la precisione massima in scrittura, mentre BigQuery restituisce un errore in questo scenario.

Se la tua applicazione non si basa sul comportamento di troncamento del dialetto di origine, valuta la possibilità di conservare la precisione della colonna nella definizione del tipo tradotto.

Il seguente YAML di configurazione esegue l'override di questo comportamento configurando la rigidità della precisione in modo da mantenere la precisione della stringa dell'istruzione di origine.

type: experimental_statement_rewriter
common:
  stringPrecision: STRICT

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

`teradata-input.sql`	create table x(a varchar(3));
`bq-output.sql`	CREATE TABLE x ( a STRING(3) ) ;

Mapping dei nomi di output

Puoi utilizzare il file YAML di configurazione per mappare i nomi degli oggetti SQL. Puoi modificare diverse parti del nome a seconda dell'oggetto mappato.

Mapping statico dei nomi

Utilizza la mappatura statica dei nomi per mappare il nome di un'entità. Se vuoi modificare solo parti specifiche del nome mantenendo invariate le altre, includi solo le parti da modificare.

La seguente configurazione YAML modifica il nome della tabella da my_db.my_schema.my_table a my_new_db.my_schema.my_new_table.

type: experimental_object_rewriter
relation:
-
  match: "my_db.my_schema.my_table"
  outputName:
    database: "my_new_db"
    relation: "my_new_table"

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

`teradata-input.sql`	create table my_db.my_schema.my_table(a int);
`bq-output.sql`	CREATE TABLE my_new_db.my_schema.my_new_table ( a INT64 )

Puoi utilizzare la mappatura statica dei nomi per aggiornare la regione utilizzata dai nomi nelle funzioni definite dall'utente pubbliche.

L'esempio seguente modifica i nomi nella UDF bqutil.fn in modo che non utilizzi più la multiregione us predefinita, ma la regione europe_west2:

type: experimental_object_rewriter
function:
-
  match:
    database: bqutil
    schema: fn
  outputName:
    database: bqutil
    schema: fn_europe_west2

Mapping dinamico dei nomi

Utilizza la mappatura dinamica dei nomi per modificare più oggetti contemporaneamente e creare nuovi nomi in base agli oggetti mappati.

La seguente configurazione YAML modifica il nome di tutte le tabelle aggiungendo il prefisso stg_ a quelle che appartengono allo schema staging, quindi sposta queste tabelle nello schema production.

type: experimental_object_rewriter
relation:
-
  match:
    schema: staging
  outputName:
    schema: production
    relation: "stg_${relation}"

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

`teradata-input.sql`	create table staging.my_table(a int);
`bq-output.sql`	CREATE TABLE production.stg_my_table ( a INT64 ) ;

Specifica il percorso di ricerca predefinito di database e schema

Il seguente YAML di configurazione specifica un database predefinito e un percorso di ricerca dello schema.

type: environment
session:
  defaultDatabase: myproject
  schemaSearchPath: [myschema1, myschema2]

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

`teradata-input.sql`	SELECT * FROM database.table SELECT * FROM table1
`bq-output.sql`	SELECT * FROM myproject.database.table. SELECT * FROM myproject.myschema1.table1

Impostazione `NLS_DATE_FORMAT`

Il seguente YAML di configurazione imposta il parametro NLS_DATE_FORMAT sul formato DD/MM/YYYY. Ti consigliamo di specificare NLS_DATE_FORMAT per gli utilizzi impliciti del formato della data e dei cast. Se non impostato, viene utilizzato il formato predefinito per la traduzione, DD-MON-RR.

type: environment
session:
  dateFormat: DD/MM/YYYY

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

oracle-input.sql

    create table x(dt date default '31/12/1999');
    insert into x values ('01/01/2000');

bq-output.sql

    CREATE TABLE testdb.testschema.x
      (
        DT DATETIME DEFAULT DATETIME '1999-12-31 00:00:00'
      )
      ;
      INSERT INTO testdb.testschema.x (DT)
        VALUES (DATETIME '2000-01-01 00:00:00')
      ;

Riscrittura del nome dell'output globale

La seguente configurazione YAML modifica i nomi di output di tutti gli oggetti (database, schema, relazione e attributi) nello script in base alle regole configurate.

type: experimental_object_rewriter
global:
  outputName:
    regex:
      - match: '\s'
        replaceWith: '_'
      - match: '>='
        replaceWith: 'gte'
      - match: '^[^a-zA-Z_].*'
        replaceWith: '_$0'

Una traduzione SQL con questo file YAML di configurazione potrebbe avere il seguente aspetto:

`teradata-input.sql`	create table "test special chars >= 12"("42eid" int, "custom column" varchar(10));
`bq-output.sql`	CREATE TABLE test_special_chars_employees_gte_12 ( _42eid INT64, custom_column STRING ) ;

Ottimizzare e migliorare le prestazioni dell'SQL tradotto

È possibile applicare trasformazioni facoltative all'SQL tradotto per introdurre modifiche che possono migliorare il rendimento o il costo. Queste ottimizzazioni dipendono rigorosamente dalla distinzione tra maiuscole e minuscole e devono essere valutate rispetto all'output SQL non modificato per valutarne l'effetto effettivo sul rendimento.

Il seguente YAML di configurazione attiva le trasformazioni facoltative. La configurazione accetta un elenco di ottimizzazioni e, per le ottimizzazioni che accettano parametri, una sezione con valori di parametri facoltativi.

type: optimizer
transformations:
  - name: PRECOMPUTE_INDEPENDENT_SUBSELECTS
  - name: REWRITE_CTE_TO_TEMP_TABLE
    parameters:
      threshold: 1

Ottimizzazione	Parametro facoltativo	Descrizione
`PRECOMPUTE_INDEPENDENT_SUBSELECTS`	`scope: [PREDICATE, PROJECTION]`	Riscrive la query aggiungendo un'istruzione `DECLARE` per sostituire un'espressione nelle clausole `PREDICATE` o `PROJECTION` con una variabile precalcolata. Verrà identificato come predicato statico che consente di ridurre la quantità di dati letti. Se l'ambito viene omesso, il valore predefinito è `PREDICATE` (ovvero la clausola `WHERE` e `JOIN-ON`). L'estrazione di una sottoquery scalare in un'istruzione `DECLARE` renderà statico il predicato originale e quindi idoneo a una migliore pianificazione dell'esecuzione. Questa ottimizzazione introdurrà nuove istruzioni SQL.
`REWRITE_CTE_TO_TEMP_TABLE`	`threshold: N`	Riscrive le espressioni di tabella comuni (CTE) in tabelle temporanee quando ci sono più di `N` riferimenti alla stessa espressione di tabella comune. Ciò riduce la complessità della query e forza la singola esecuzione dell'espressione di tabella comune. Se `N` viene omesso, il valore predefinito è 4. Ti consigliamo di utilizzare questa ottimizzazione quando le CTE non banali vengono referenziate più volte. L'introduzione di tabelle temporanee comporta un overhead che potrebbe essere maggiore di quello di più esecuzioni di un'espressione di tabella comune a bassa complessità o bassa cardinalità. Questa ottimizzazione introdurrà nuove istruzioni SQL.
`REWRITE_ZERO_SCALE_NUMERIC_AS_INTEGER`	`bigint: N`	Riscrive gli attributi `NUMERIC/BIGNUMERIC` a zero scala nel tipo `INT64` se la precisione rientra in `N`. Se `N` viene omesso, il valore predefinito è `18`. Ti consigliamo di utilizzare questa ottimizzazione quando traduci da dialetti di origine che non hanno tipi interi. La modifica dei tipi di colonne richiede la revisione di tutti gli utilizzi downstream per la compatibilità dei tipi e le modifiche semantiche. Ad esempio, divisioni frazionarie che diventano divisioni intere o codice che prevede valori numerici. Le traduzioni Snowflake hanno questa ottimizzazione per i valori numerici a zero scala fino alla precisione 38 abilitata per impostazione predefinita. Questa ottimizzazione garantisce che un `INTEGER` Snowflake, che è rappresentato implicitamente come `NUMBER(38,0)` in Snowflake, venga convertito in un `INT64` BigQuery anziché in un `BIGNUMERIC(38)`. Se la tua applicazione utilizza numeri con precisioni superiori a 18, ti consigliamo di disattivare questa funzionalità per assicurarti che BigQuery possa elaborare l'intera gamma di valori necessari alla tua applicazione.
`DROP_TEMP_TABLE`		Aggiunge istruzioni `DROP TABLE` per tutte le tabelle temporanee create in uno script e non eliminate alla fine. In questo modo, il periodo di fatturazione dello spazio di archiviazione per la tabella temporanea viene ridotto da 24 ore al tempo di esecuzione dello script. Questa ottimizzazione introdurrà nuove istruzioni SQL. Ti consigliamo di utilizzare questa ottimizzazione quando non si accede alle tabelle temporanee per ulteriori elaborazioni dopo la fine dell'esecuzione dello script. Questa ottimizzazione introdurrà nuove istruzioni SQL.
`REGEXP_CONTAINS_TO_LIKE`		Riscrive alcune categorie di pattern di corrispondenza `REGEXP_CONTAINS` in espressioni `LIKE`. Ti consigliamo di utilizzare questa ottimizzazione quando nessun altro processo, come la sostituzione delle macro, si basa sui valori letterali del pattern dell'espressione regolare che vengono conservati invariati nell'SQL di output.
`ADD_DISTINCT_TO_SUBQUERY_IN_SET_COMPARISON`		Aggiunge la clausola `DISTINCT` alle sottoquery utilizzate come insieme di valori per l'operatore `[NOT] IN`. Ti consigliamo di utilizzare questa ottimizzazione quando la cardinalità (numero distinto di valori) del risultato della sottoquery è significativamente inferiore al numero di valori. Se questa precondizione non viene soddisfatta, questa trasformazione può avere effetti negativi sulle prestazioni.
`APPROXIMATE_RANGE_PARTITIONS`		Approssima schemi di partizionamento di numeri interi non contigui o non regolari convertendoli in intervalli di partizioni contigui e di dimensioni uguali supportati da BigQuery. Per impostazione predefinita, questi schemi di partizionamento non influenzano lo schema di partizionamento delle tabelle nelle istruzioni DDL tradotte. Ti consigliamo di utilizzare questa ottimizzazione quando la tabella di origine utilizza una funzione di partizionamento non contigua come la funzione `RANGE_N` di Teradata e trarrebbe vantaggio da uno schema di partizionamento di dimensioni uguali in BigQuery.

Esempi di ottimizzazione

La seguente ottimizzazione converte i tipi numerici con scala zero e precisione inferiore o uguale a 38 in INT64 in BigQuery.

# An INTEGER is internally represented as NUMBER(38,0) in Snowflake.
# To convert Snowflake INTEGER to INT64 in BigQuery, enable the rewrite for precision <= 38.
# Note that this can produce incorrect results if your application logic uses more than 18 digits of precision.
#
# This configuration is enabled by default for the Snowflake Dialect.
type: optimizer
transformations:
  - name: REWRITE_ZERO_SCALE_NUMERIC_AS_INTEGER
    parameters:
      bigint: 38

Una traduzione SQL con questa ottimizzazione potrebbe avere il seguente aspetto:

`snowflake-input.sql`	CREATE TABLE numbers(i INTEGER, n NUMERIC(10,0));
`bq-output.sql`	CREATE TABLE numbers(i INT64, n INT64);

La seguente configurazione disattiva l'ottimizzazione nei dialetti, ad esempio Snowflake, in cui è attivata per impostazione predefinita. Questa configurazione converte i tipi numerici in NUMERIC o BIGNUMERIC a seconda della precisione dell'input, anziché il valore predefinito INT64.

type: optimizer
transformations:
  - name: REWRITE_ZERO_SCALE_NUMERIC_AS_INTEGER
    enabled: false

Una traduzione SQL con questa ottimizzazione potrebbe avere il seguente aspetto:

`snowflake-input.sql`	CREATE TABLE numbers(i INTEGER, n NUMERIC(10,0));
`bq-output.sql`	CREATE TABLE numbers(i BIGNUMERIC(38), n NUMERIC(29));

Crea un file YAML di configurazione basato su Gemini

Per generare l'output dell'AI, la directory di origine contenente l'input di traduzione SQL deve includere un file YAML di configurazione.

Requisiti

Il file YAML di configurazione per gli output dell'AI deve avere il suffisso .ai_config.yaml. Ad esempio, rules_1.ai_config.yaml.

Campi supportati

Puoi utilizzare i seguenti campi per configurare l'output della traduzione con l'AI:

suggestion_type (facoltativo): specifica il tipo di suggerimento dell'AI da generare. Sono supportati i seguenti tipi di suggerimenti:
- QUERY_CUSTOMIZATION (impostazione predefinita): genera suggerimenti basati sull'AI per il codice SQL in base alle regole di traduzione specificate nel file YAML di configurazione.
- TRANSLATION_EXPLANATION: genera un testo che include un riepilogo della query GoogleSQL tradotta e le differenze e le incongruenze tra la query SQL di origine e la query GoogleSQL tradotta.
rewrite_target (facoltativo): specifica SOURCE_SQL se vuoi applicare la regola di traduzione all'SQL di input o TARGET_SQL (impostazione predefinita) se vuoi applicare la regola di traduzione all'SQL di output.
instruction (facoltativo): descrivi in linguaggio naturale una modifica all'SQL di destinazione. La traduzione SQL migliorata con Gemini valuta la richiesta e apporta la modifica specificata.
examples (facoltativo): fornisci esempi SQL di come vuoi che venga modificato il pattern SQL.

Puoi aggiungere ulteriori translation_rules e examples in base alle tue esigenze.

Esempi

Gli esempi seguenti creano file YAML di configurazione basati su Gemini che puoi utilizzare con le traduzioni SQL.

Rimuovi la funzione upper nella query di output della traduzione predefinita

translation_rules:
- instruction: "Remove upper() function"
  examples:
  - input: "upper(X)"
    output: "X"

Crea più regole di traduzione per personalizzare l'output della traduzione

translation_rules:
- instruction: "Remove upper() function"
  suggestion_type: QUERY_CUSTOMIZATION
  rewrite_target: TARGET_SQL
  examples:
  - input: "upper(X)"
    output: "X"
- instruction: "Insert a comment at the head that explains each statement in detail.
  suggestion_type: QUERY_CUSTOMIZATION
  rewrite_target: TARGET_SQL

Rimuovi i commenti SQL dalla query di input della traduzione

translation_rules:
- instruction: "Remove all the sql comments in the input sql query."
  suggestion_type: QUERY_CUSTOMIZATION
  rewrite_target: SOURCE_SQL

Generare spiegazioni della traduzione utilizzando il prompt LLM predefinito

Questo esempio utilizza i prompt LLM predefiniti forniti dal servizio di traduzione per generare spiegazioni del testo:

translation_rules:
- suggestion_type: "TRANSLATION_EXPLANATION"

Genera spiegazioni della traduzione utilizzando i tuoi prompt in linguaggio naturale

translation_rules:
- suggestion_type: "TRANSLATION_EXPLANATION"
  instruction: "Explain the syntax differences between the source Teradata query and the translated GoogleSQL query."

Più tipi di suggerimenti in un unico file YAML di configurazione

translation_rules:
- suggestion_type: "TRANSLATION_EXPLANATION"
  instruction: "Explain the syntax differences between the source Teradata query and the translated GoogleSQL query."
- instruction: "Remove upper() function"
  suggestion_type: QUERY_CUSTOMIZATION
  rewrite_target: TARGET_SQL
  examples:
  - input: "upper(X)"
    output: "X"
- instruction: "Remove all the sql comments in the input sql query."
  suggestion_type: QUERY_CUSTOMIZATION
  rewrite_target: SOURCE_SQL

Applicazione di più configurazioni YAML

Quando specifichi un file YAML di configurazione in una traduzione SQL batch o interattiva, puoi selezionare più file YAML di configurazione in un singolo job di traduzione per riflettere più trasformazioni. Se più configurazioni sono in conflitto, una trasformazione potrebbe sostituirne un'altra. Ti consigliamo di utilizzare diversi tipi di impostazioni di configurazione in ogni file per evitare trasformazioni in conflitto nello stesso job di traduzione.

L'esempio seguente elenca due file YAML di configurazione separati forniti per un singolo job di traduzione SQL, uno per modificare l'attributo di una colonna e l'altro per impostare la tabella come temporanea:

change-type-example.config.yaml:

type: object_rewriter
attribute:
  -
    match: "testdb.testschema.x.a"
    type:
      target: NUMERIC(10,2)

make-temp-example.config.yaml:

type: object_rewriter
relation:
  -
    match: "testdb.testschema.x"
    temporary: true

Una traduzione SQL con questi due file YAML di configurazione potrebbe avere il seguente aspetto:

`teradata-input.sql`	create table x(a int);
`bq-output.sql`	CREATE TEMPORARY TABLE x ( a NUMERIC(31, 2) ) ;

Trasforma le traduzioni SQL utilizzando i file YAML di configurazione

Requisiti del file YAML di configurazione

Linee guida per creare un file YAML di configurazione

Intestazione

Selezione delle entità

Database predefinito

Tipi di attributi target supportati

Esempi di YAML di configurazione

Modificare le maiuscole/minuscole del nome dell'oggetto

Rendere temporanea la tabella

Rendi temporanea la tabella

Impostare la scadenza della partizione

Modificare la posizione o il formato esterni di una tabella

Impostare o modificare la descrizione della tabella

Impostare o modificare il partizionamento delle tabelle

Impostare o modificare il clustering delle tabelle

Modificare il tipo di un attributo di colonna

Aggiungere una connessione a un data lake esterno

Modificare la codifica dei caratteri di un file di input

Conversione del tipo globale

Impostazione del fuso orario predefinito

Seleziona modifica della dichiarazione

Specifiche delle funzioni definite dall'utente

Impostazione del livello di rigore della precisione decimale

Impostazione della rigidità della precisione della stringa

Mapping dei nomi di output

Mapping statico dei nomi

Mapping dinamico dei nomi

Specifica il percorso di ricerca predefinito di database e schema

Impostazione NLS_DATE_FORMAT

Riscrittura del nome dell'output globale

Ottimizzare e migliorare le prestazioni dell'SQL tradotto

Esempi di ottimizzazione

Crea un file YAML di configurazione basato su Gemini

Requisiti

Campi supportati

Esempi

Rimuovi la funzione upper nella query di output della traduzione predefinita

Crea più regole di traduzione per personalizzare l'output della traduzione

Rimuovi i commenti SQL dalla query di input della traduzione

Generare spiegazioni della traduzione utilizzando il prompt LLM predefinito

Genera spiegazioni della traduzione utilizzando i tuoi prompt in linguaggio naturale

Più tipi di suggerimenti in un unico file YAML di configurazione

Applicazione di più configurazioni YAML

Impostazione `NLS_DATE_FORMAT`