Alcune o tutte le informazioni in questa pagina potrebbero non essere applicabili a Cloud de Confiance di S3NS. Per maggiori dettagli, consulta Differenze rispetto a Google Cloud.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Lavorare con gli embedding vettoriali (anteprima)

MySQL | PostgreSQL | SQL Server

Anteprima — Ricerca e archiviazione vettoriale di Cloud SQL per MySQL

Questa funzionalità è soggetta ai "Termini dell'offerta pre-GA" nella sezione dei Termini di servizio generali dei Termini specifici dei servizi. Puoi trattare i dati personali per questa funzionalità come indicato nell'Addendum per il trattamento dei dati Cloud, fatti salvi gli obblighi e le restrizioni all'interno dell'accordo che regola l'accesso a Google Cloud. Le funzionalità pre-GA sono disponibili "così come sono" e potrebbero avere un supporto limitato. Per ulteriori informazioni, consulta le descrizioni della fase di lancio.

Questa pagina descrive in dettaglio come interagire con Cloud SQL per creare applicazioni che utilizzano vector embedding.

Cloud SQL per MySQL supporta l'archiviazione di incorporamenti vettoriali. Puoi quindi creare indici di ricerca vettoriale ed eseguire ricerche di similarità su questi vector embedding insieme al resto dei dati archiviati in Cloud SQL.

Archiviazione di vector embedding

Puoi utilizzare Cloud SQL per MySQL per archiviare gli incorporamenti vettoriali creando una colonna di incorporamento vettoriale in una tabella. La colonna speciale di incorporamento vettoriale viene mappata al tipo di dati VARBINARY. Come altri dati relazionali nella tabella, puoi accedere agli incorporamenti vettoriali nella tabella con le garanzie transazionali esistenti. Una tabella con una colonna di incorporamento vettoriale è una normale tabella InnoDB ed è quindi conforme alle proprietà di atomicità, coerenza, isolamento e durabilità (ACID). Le proprietà ACID variano solo per le ricerche di indici di ricerca vettoriale.

Tieni presente quanto segue quando configuri una tabella per gli embedding vettoriali:

Puoi creare al massimo una colonna di vector embedding in una tabella e un indice di ricerca vettoriale per tabella. Ogni incorporamento vettoriale archiviato nella stessa colonna deve avere esattamente le stesse dimensioni specificate quando hai definito la colonna. Un vector embedding ha un limite massimo di 16.000 dimensioni. Se hai spazio di archiviazione e memoria sufficienti, puoi avere tabelle separate con colonne di embedding vettoriale e indici di ricerca vettoriale diversi nella stessa istanza.
Sebbene non esista un limite rigido al numero di vector embedding che puoi memorizzare in una tabella, gli indici di ricerca vettoriale richiedono memoria. Per questo motivo, ti consigliamo di archiviare non più di 10 milioni di incorporamenti vettoriali in una tabella.
Consulta anche l'elenco delle limitazioni.

La replica funziona allo stesso modo per la colonna di incorporamento vettoriale e per le altre colonne MySQL InnoDB.

Ricerca di somiglianze

Cloud SQL supporta la ricerca di similarità utilizzando sia le query di ricerca K-Nearest Neighbor (KNN) sia Approximate Nearest Neighbor (ANN). Puoi utilizzare entrambi i tipi di ricerca vettoriale nelle tue istanze Cloud SQL. Puoi creare un indice di ricerca vettoriale solo per le ricerche ANN.

Ricerca K-Nearest Neighbor (KNN)

Cloud SQL supporta le query che utilizzano la ricerca vettoriale KNN, chiamata anche ricerca esatta del vicino più prossimo. L'esecuzione di una ricerca vettoriale KNN fornisce un richiamo perfetto. Puoi eseguire ricerche KNN senza dover creare un indice di ricerca vettoriale. La ricerca KNN si basa sull'esecuzione di un algoritmo di scansione della tabella.

Per la ricerca KNN, Cloud SQL supporta anche le seguenti funzioni di ricerca della distanza vettoriale:

Coseno
Prodotto scalare
Distanza al quadrato L2

Per saperne di più sull'utilizzo delle funzioni di distanza della ricerca vettoriale, consulta Esegui query sulla distanza di un vector embedding.

Ricerca approssimativa del vicino più prossimo (ANN)

Cloud SQL supporta la creazione e l'esecuzione di query di ricerca ANN tramite la creazione di indici di ricerca vettoriale. Un indice di ricerca vettoriale ANN ti consente di ottimizzare per prestazioni rapide anziché per un richiamo perfetto. Per la ricerca ANN, Cloud SQL supporta i seguenti tipi di indice:

BRUTE_FORCE: il tipo di indice di ricerca vettoriale predefinito per una tabella di base con meno di 10.000 righe. Questo tipo è più adatto alle ricerche all'interno di un sottoinsieme più piccolo di un set di dati originale. La memoria utilizzata dall'indice è uguale alle dimensioni del set di dati. Questo tipo di indice non viene salvato su disco.
TREE_SQ: il tipo di indice di ricerca vettoriale predefinito per una tabella di base con 10.000 o più righe. Questo tipo utilizza la quantità minima di memoria o circa il 25% delle dimensioni del set di dati. Gli indici TREE_SQ vengono salvati su disco.
TREE_AH: un tipo di indice di ricerca vettoriale che fornisce un algoritmo di tipo di ricerca con hashing asimmetrico. Come implementato in Cloud SQL, questo tipo di indice non è ottimizzato per il footprint della memoria e non viene reso persistente.

Aggiorna gli indici di ricerca vettoriale

Cloud SQL per MySQL aggiorna gli indici di ricerca vettoriale in tempo reale. Qualsiasi transazione che esegue operazioni di Data Manipulation Language (DML) sulla tabella di base propaga anche le modifiche agli indici di ricerca vettoriale associati. Le modifiche apportate a un indice di ricerca vettoriale sono immediatamente visibili a tutte le altre transazioni, il che significa un livello di isolamento di READ_UNCOMMITTED.

Se esegui il rollback di una transazione, le modifiche di rollback corrispondenti vengono apportate anche nell'indice di ricerca vettoriale.

Replica degli indici di ricerca vettoriale

Cloud SQL per MySQL replica gli indici di ricerca vettoriale in tutte le repliche di lettura. I filtri di replica e la replica degli indici di ricerca vettoriale nelle repliche a cascata non sono supportati.

Configura un'istanza per supportare i vector embedding

Questa sezione descrive come configurare l'istanza Cloud SQL per supportare l'archiviazione, l'indicizzazione e l'esecuzione di query sugli incorporamenti vettoriali.

Le istanze di Cloud SQL Enterprise e Cloud SQL Enterprise Plus supportano gli incorporamenti vettoriali.

Prima di iniziare

L'istanza deve eseguire Cloud SQL per MySQL versione MySQL 8.0.36.R20240401.03_00 o successive.
L'istanza deve disporre di spazio su disco sufficiente per allocare la memoria per il numero totale di incorporamenti vettoriali sull'istanza.

Attivare i vector embedding

Per attivare il supporto dei vector embedding, devi configurare i flag di database MySQL.

gcloud sql instances patch INSTANCE_NAME \
  --database-flags=FLAGS

Sostituisci INSTANCE_NAME con il nome dell'istanza su cui vuoi abilitare il supporto di vector embedding.

In FLAGS, configura i seguenti flag MySQL sull'istanza:

cloudsql_vector: imposta questo flag su on per abilitare l'archiviazione e la ricerca di vector embedding. Puoi creare nuove colonne di incorporamento vettoriale e indici di ricerca vettoriale nell'istanza.
cloudsql_vector_max_mem_size: facoltativo. Specifica l'allocazione massima di memoria in byte per tutti gli indici di ricerca vettoriale nell'istanza. Se non specifichi questo flag, l'allocazione della memoria predefinita è 1 GB, ovvero l'allocazione della memoria minima. Per ulteriori informazioni su come calcolare l'importo da specificare, consulta Configurare l'allocazione della memoria per gli indici di ricerca vettoriale.

Questa memoria dedicata proviene dalla memoria allocata al tuo innodb_buffer_pool_size. Il buffer pool disponibile viene ridotto dello stesso importo. Il valore massimo consentito per questo flag è il 50% del tuo innodb_buffer_pool_size totale.

Se specifichi un valore superiore al 50% del tuo innodb_buffer_pool_size totale, Cloud SQL riduce il valore effettivo al 50% delle dimensioni disponibili e registra un messaggio di avviso per l'istanza.

Dopo aver configurato i flag, il comando potrebbe essere simile al seguente:

gcloud sql instances patch my-instance \
  --database-flags=cloudsql_vector=on,cloudsql_vector_max_mem_size=4294967296

I flag per configurare il supporto dei vector embedding in Cloud SQL per MySQL sono statici. Dopo aver aggiornato l'istanza con i flag, l'istanza si riavvia automaticamente affinché le modifiche alla configurazione vengano applicate.

Per saperne di più su come configurare i flag di database per MySQL, consulta Configurare i flag di database.

Disattivare i vector embedding

Per disabilitare gli incorporamenti vettoriali, imposta il flag cloudsql_vector su off.

Ad esempio:

gcloud sql instances patch INSTANCE_NAME \
  --database-flags=cloudsql_vector=off

Sostituisci INSTANCE_NAME con il nome dell'istanza su cui stai disattivando il supporto per l'incorporamento vettoriale.

Se imposti cloudsql_vector su off, non potrai creare nuove colonne di incorporamento vettoriale e indici di ricerca vettoriale. Dopo aver configurato questo flag statico, l'istanza viene riavviata automaticamente affinché la modifica alla configurazione venga applicata.

Dopo il riavvio dell'istanza, Cloud SQL per MySQL esegue le seguenti operazioni:

Rimuove tutti gli indici di ricerca vettoriale TREE_SQ persistenti dal disco permanente.
Conserva le voci della tabella del dizionario di dati per gli indici di ricerca vettoriale che sono stati creati. Tuttavia, Cloud SQL per MySQL non ricrea gli indici e qualsiasi query di ricerca in questi indici restituisce un errore.
Continua ad archiviare gli incorporamenti vettoriali nelle tabelle di base. Gli incorporamenti vettoriali rimangono accessibili.

Se in un secondo momento riattivi il flag cloudsql_vector per l'istanza, Cloud SQL tenta di ricompilare gli indici durante il riavvio dell'istanza in base alle voci della tabella del dizionario dei dati.

Configurazione della replica di lettura

Se l'istanza soddisfa i criteri di abilitazione della versione di manutenzione e dei flag, Cloud SQL supporta completamente gli incorporamenti vettoriali su una replica di lettura.

Se crei una replica da un'istanza principale con il supporto dell'incorporamento di vettori abilitato, la replica di lettura eredita le impostazioni di supporto dell'incorporamento di vettori dall'istanza principale. Devi abilitare il supporto di vector embedding singularmente nelle istanze di replica di lettura già esistenti.

In termini di impatto sul ritardo di replica, la creazione e la manutenzione degli indici di ricerca vettoriale funzionano allo stesso modo degli indici MySQL regolari.

Gli indici di ricerca vettoriale non sono supportati nelle repliche a cascata.

Esempio: un indice e una query di ricerca vettoriale ANN

La seguente procedura dettagliata fornisce i passaggi per creare un indice di ricerca vettoriale basato su ANN ed eseguire query in Cloud SQL.

Genera vector embedding. Puoi creare incorporamenti vettoriali manualmente o utilizzare un'API di incorporamento di testo a tua scelta. Per un esempio che utilizza Vertex AI, consulta Generare incorporamenti vettoriali in base ai dati delle righe.

Crea una tabella in Cloud SQL per MySQL che contenga una colonna di incorporamento vettoriale con tre dimensioni.

CREATE TABLE books (
id   INTEGER PRIMARY KEY AUTO_INCREMENT,
title VARCHAR(60),
embedding VECTOR(3) USING VARBINARY
);

Inserisci un incorporamento vettoriale nella colonna.

INSERT INTO books VALUES (
1,
'book title',
 string_to_vector('[1,2,3]')
);

Esegui il commit delle modifiche.
```
commit;
```

Crea l'indice di ricerca vettoriale. Se stai creando un indice TREE_SQ o TREE_AH, la tabella deve contenere almeno 1000 righe.

CALL mysql.create_vector_index('vectorIndex',
                               'dbname.books',
                               'embedding',
                               'index_type=BRUTE_FORCE, distance_measure=L2_SQUARED'
                               );

Ottieni i vicini più prossimi.

SELECT title FROM books
WHERE
NEAREST(embedding) TO (string_to_vector('[1,2,3]'));

Generare vector embedding basati sui dati delle righe

Puoi generare un incorporamento vettoriale per i dati di una determinata riga utilizzando un'API di incorporamento di testo come Vertex AI o OpenAI. Puoi utilizzare qualsiasi API di text embedding con gli incorporamenti vettoriali di Cloud SQL. Tuttavia, devi utilizzare la stessa API di text embedding per la generazione del vettore della stringa di query. Non puoi combinare API diverse per i dati di origine e la vettorizzazione delle query.

Ad esempio, puoi generare un embedding vettoriale da Vertex AI:

from vertexai.language_models import TextEmbeddingModel

def text_embedding() -> list:
    """Text embedding with a Large Language Model."""
    model = TextEmbeddingModel.from_pretrained("text-embedding-004")
    embeddings = model.get_embeddings(["What is life?"])
    for embedding in embeddings:
        vector = embedding.values
        print(f"Length of Embedding Vector: {len(vector)}")
    return vector

if __name__ == "__main__":
    text_embedding()

Memorizzare i vector embedding

Questa sezione fornisce esempi di istruzioni per l'archiviazione di vector embedding in Cloud SQL.

Crea una nuova tabella con una colonna di embedding vettoriale

CREATE TABLE books (
  id INTEGER PRIMARY KEY AUTO_INCREMENT,
  title VARCHAR(60),
  embedding VECTOR(3) USING VARBINARY
  );

Aggiungere una colonna di incorporamento vettoriale a una tabella esistente

ALTER TABLE books
ADD COLUMN embedding
VECTOR(3) USING VARBINARY;

Inserire un vector embedding

INSERT INTO books (
  title,
  embedding
  ) VALUES (
    'book title',
    string_to_vector('[1,2,3]')
);

Inserisci più vector embedding

INSERT INTO books (
  title,
  embedding
  ) VALUES (
    'book title',
    string_to_vector('[1,2,3]')),
     ('book title', string_to_vector('[4,5,6]')
);

Inserisci o aggiorna un vector embedding

INSERT INTO books (
  id,
  title,
  embedding
  ) VALUES (
    1,
    'book title',
     string_to_vector('[1,2,3]')
     )
ON DUPLICATE KEY UPDATE embedding = string_to_vector('[1,2,3]');

Aggiorna un vector embedding

UPDATE books
SET embedding = string_to_vector('[1,2,3]')
WHERE id = 1;

Eliminare un vector embedding

DELETE FROM books
WHERE embedding = string_to_vector('[1,2,3]');

Utilizzare gli indici di ricerca vettoriale

Per impostazione predefinita, puoi eseguire la ricerca esatta del vicino più prossimo, che fornisce il richiamo perfetto. Puoi anche aggiungere un indice per utilizzare la ricerca ANN, che privilegia la velocità rispetto al richiamo. A differenza degli indici tipici, dopo aver aggiunto un indice approssimativo, i risultati delle query sono diversi.

Consigli

Questa sezione fornisce le best practice per l'utilizzo degli indici di ricerca vettoriale. Ogni carico di lavoro è diverso e potrebbe essere necessario apportare modifiche di conseguenza.

Prima di creare un indice di ricerca vettoriale, devi caricare i dati nella tabella. La tabella di base deve contenere almeno 1000 righe. Questi requisiti si applicano solo ai tipi di indice di ricerca TREE_SQ e TREE_AH. Se hai a disposizione più punti dati, avrai una migliore partizione e un migliore addestramento dell'indice.
Monitora l'utilizzo della memoria degli indici. Se l'istanza esaurisce la memoria, non puoi creare o compilare indici. Per gli indici esistenti, dopo aver raggiunto la soglia, Cloud SQL scrive periodicamente avvisi nel log degli errori MySQL. Puoi visualizzare la memoria utilizzata nella tabella information_schema.innodb_vector_indexes.
Se la tabella di base sottostante ha subito modifiche DML importanti, ricostruisci gli indici di ricerca vettoriale. Per ottenere le dimensioni iniziali dell'indice al tempo di compilazione e le dimensioni attuali dell'indice, esegui una query sulla tabella information_schema.innodb_vector_indexes.
In genere, è accettabile lasciare che il numero di partizioni venga calcolato internamente. Se hai un caso d'uso in cui vuoi specificare il numero di partizioni, devi avere almeno 100 punti dati per partizione.

Tabella di base di sola lettura durante le operazioni di indice di ricerca vettoriale

Per la durata di tutte e tre le operazioni dell'indice di ricerca vettoriale (creazione, modifica ed eliminazione), la tabella di base viene inserita in modalità di sola lettura. Durante queste operazioni, non sono consentite istruzioni DML sulla tabella di base.

Persistenza, arresto e impatto sulla manutenzione

Solo gli indici di ricerca vettoriale che utilizzano il tipo TREE_SQ vengono salvati su disco in caso di arresto pulito di un'istanza. Gli indici di ricerca vettoriale che utilizzano i tipi TREE_AH e BRUTE_FORCE sono solo in memoria.

Dopo l'arresto controllato di un'istanza, Cloud SQL ricarica gli indici di ricerca vettoriale al riavvio dell'istanza. Tuttavia, dopo un arresto anomalo o un arresto anomalo, Cloud SQL deve ricreare gli indici di ricerca vettoriale. Ad esempio, ogni volta che l'istanza subisce un arresto anomalo e un ripristino dal backup e dal ripristino, dal recupero point-in-time (PITR) o dal failover di alta disponibilità (HA), Cloud SQL ricompila gli indici di ricerca vettoriale. Per questi eventi, si verifica quanto segue:

La ricompilazione avviene automaticamente in background.
Durante la ricostruzione, la tabella di base è in modalità di sola lettura.
Se la ricompilazione automatica non riesce a bloccare la tabella entro un periodo di timeout specifico, la ricompilazione non va a buon fine. Potresti dover ricostruire l'indice manualmente.

Il tempo necessario per la ricostruzione di un indice potrebbe aumentare il tempo necessario per un arresto, il che potrebbe anche aumentare il tempo necessario per la manutenzione e l'aggiornamento di un'istanza.

Configurare l'allocazione della memoria per gli indici di ricerca vettoriale

Cloud SQL crea e gestisce gli indici di ricerca vettoriale in memoria. Il tipo di indice TREE_SQ viene mantenuto in caso di arresto pulito e ricaricato dopo il riavvio dell'istanza. Durante l'esecuzione, tutti gli indici di ricerca vettoriale devono rimanere in memoria.

Per assicurarti che Cloud SQL abbia memoria sufficiente per mantenere tutti gli indici di ricerca vettoriale in memoria, configura l'istanza Cloud SQL con un flag di database cloudsql_vector_max_mem_size. cloudsql_vector_max_mem_size determina la quantità di memoria che l'istanza Cloud SQL dedica agli indici di ricerca vettoriale. Quando configuri il valore del flag, tieni presente quanto segue:

Il valore predefinito e minimo è 1 GB. Il limite superiore è il 50% della dimensione del buffer pool.
Dopo aver impostato questo flag, l'istanza viene riavviata automaticamente affinché la modifica della configurazione venga applicata.
Se la tua istanza ha utilizzato tutta la memoria configurata, non puoi creare o modificare gli indici di ricerca vettoriale.

Per aggiornare la memoria allocata per gli indici di ricerca vettoriale nell'istanza, modifica il valore del flag cloudsql_vector_max_mem_size.

gcloud sql instances patch INSTANCE_NAME \
  --database-flags= cloudsql_vector_max_mem_size=NEW_MEMORY_VALUE

Sostituisci quanto segue:

INSTANCE_NAME: il nome dell'istanza su cui stai modificando l'allocazione della memoria.
NEW_MEMORY_VALUE: l'allocazione della memoria aggiornata, in byte, per gli indici di ricerca vettoriale.

Questa modifica riavvia automaticamente l'istanza in modo che possa essere applicata.

Calcola la memoria richiesta

La quantità di memoria richiesta da un indice dipende dal tipo di indice, dal numero di vector embedding e dalla dimensionalità degli embedding. Esistono due requisiti di memoria da considerare:

Memoria di compilazione:la memoria richiesta durante la creazione dell'indice.
Memoria dell'indice: la memoria occupata dall'indice dopo la sua creazione.

Per un determinato indice, la dimensione del set di dati è la memoria necessaria per leggere tutti gli incorporamenti vettoriali in memoria. Poiché ogni dimensione è rappresentata da un numero in virgola mobile che utilizza 4 byte di memoria, puoi determinare dataset_size nel seguente modo:

dataset_size = <num_embeddings> * (4 * <dimensions>)

Ad esempio, se hai un milione di incorporamenti di 768 dimensioni, il tuo dataset_size è 3 GB.

In base all'esempio precedente, i requisiti di memoria per i diversi tipi di indice sono i seguenti:

Tipo di indice	Memoria del tempo di compilazione	Memoria dell'indice
`TREE_SQ`	4 GB	1 GB
`TREE_AH`	3,5 GB	3,5 GB
`BRUTE_FORCE`	3 GB	3 GB

Se utilizzi indici di ricerca vettoriale TREE_SQ, devi anche tenere conto della memoria necessaria per la persistenza in fase di runtime. Alla quantità totale di memoria nella configurazione, aggiungi la quantità di memoria dell'indice utilizzata dall'indice di ricerca vettoriale TREE_SQ attivo più grande.

Ogni volta che la tabella di base in cui sono archiviati gli embedding vettoriali viene sottoposta a operazioni DML, l'indice di ricerca vettoriale viene aggiornato in tempo reale. Questi aggiornamenti modificano il footprint della memoria dell'indice, che può ridursi o espandersi a seconda dell'operazione DML. Puoi monitorare il footprint della memoria di un indice eseguendo query sulla tabella information_schema.innodb_vector_indexes. Per informazioni sul monitoraggio delle dimensioni dell'indice di ricerca vettoriale, consulta Monitorare gli indici di ricerca vettoriale.

Crea un indice di ricerca vettoriale

L'istruzione per creare un indice di ricerca vettoriale utilizza la seguente sintassi:

CALL mysql.create_vector_index('INDEX_NAME',
                                'DB_NAME.TABLE_NAME',
                                'COLUMN_NAME',
                                'PARAMETERS'
                              );

Ad esempio:

CALL mysql.create_vector_index('vectorIndex',
                                'db.books',
                                'embedding',
                                'index_type=TREE_SQ, distance_measure=l2_squared'
                               );

Il nome dell'indice che specifichi deve essere univoco all'interno del database.

Parametri dell'indice di ricerca vettoriale

Le funzioni mysql.create_vector_index e mysql.alter_vector_index supportano più parametri che puoi specificare con coppie chiave-valore separate da virgole. Tutti i parametri della funzione mysql.create_vector_index sono facoltativi. Se specifichi una stringa vuota o NULL, i valori predefiniti dei parametri vengono configurati per l'indice.

distance_measure: i valori supportati sono L2_SQUARED, COSINE e DOT_PRODUCT. L2_SQUARED è il valore predefinito.
num_neighbors: il numero di vicini da restituire da una query ANN. Puoi anche ignorare questo parametro quando esegui la query di ricerca. Il valore predefinito è 10.
index_type: specifica il tipo di indice da creare. I valori validi sono: BRUTE_FORCE, TREE_SQ e TREE_AH.
- BRUTE_FORCE è il valore predefinito per una tabella con meno di 10.000 righe
- TREE_SQ è il valore predefinito per una tabella con 10.000 o più righe
Per specificare il tipo di indice TREE_AH o TREE_SQ, la dimensione della tabella di base deve essere superiore a 1000 righe.
num_parititions: specifica il numero di cluster K-means da creare. Questo parametro è consentito solo se hai configurato un index_type. Questa opzione non è applicabile a BRUTE_FORCE. Se specifichi il tipo di indice TREE_SQ o TREE_AH, la dimensione della tabella di base deve essere maggiore o uguale a num_partitions * 100.

Modifica un indice di ricerca vettoriale

CALL mysql.alter_vector_index('DB_NAME.INDEX_NAME', 'PARAMETERS');

La funzione alter_vector_index viene utilizzata in modo esplicito per ricreare un indice di ricerca vettoriale. Per utilizzare questa funzione, l'indice deve già esistere. Potresti voler ricreare un indice per i seguenti casi d'uso:

Per ricreare l'indice con opzioni diverse. Ad esempio, potresti voler utilizzare un tipo di indice diverso o una misura di distanza diversa.
Per ricompilare l'indice perché la tabella di base ha subito importanti modifiche DML. Ad esempio, devi eseguire di nuovo il training dell'indice di ricerca vettoriale in base ai dati nella tabella di base.

Tutti i parametri per la ricompilazione dell'indice sono identici a quelli disponibili per la creazione dell'indice e sono anche facoltativi. Se specifichi una stringa vuota o NULL quando ricostruisci l'indice, quest'ultimo viene ricostruito in base ai parametri specificati al momento della creazione dell'indice. Se non vengono forniti parametri al momento della creazione dell'indice, vengono utilizzati i valori predefiniti dei parametri.

L'indice di ricerca vettoriale esistente è disponibile durante l'operazione alter_vector_index. Puoi comunque eseguire query di ricerca sull'indice.

Elimina un indice di ricerca vettoriale

Non puoi eseguire un'operazione DDL su una tabella con un indice di ricerca vettoriale. Prima di eseguire l'operazione DDL sulla tabella, devi eliminare l'indice di ricerca vettoriale.

CALL mysql.drop_vector_index('DB_NAME.INDEX_NAME');

Eseguire query sugli embedding vettoriali

Questa sezione fornisce esempi dei diversi modi in cui puoi eseguire query sugli incorporamenti vettoriali.

Visualizza i vector embedding

SELECT vector_to_string(embedding) FROM books;

Ottieni la ricerca esatta del vicino per un vector embedding

SELECT id,cosine_distance(embedding,
   string_to_vector('[1,2,3]')) dist
FROM books
ORDER BY dist
LIMIT 10;

Ottieni la ricerca approssimativa del vicino per un vector embedding

SELECT title FROM books
WHERE
NEAREST(embedding) TO (string_to_vector('[1,2,3]'), 'num_neighbors=10');

L'esecuzione di una ricerca ANN supporta due parametri. Entrambi sono facoltativi.

num_partitions: specifica il numero di partizioni da analizzare per una ricerca di vettori ANN. Se non specifichi il numero di partizioni, la ricerca utilizza un valore generato in base alle dimensioni della tabella, al numero di partizioni nell'indice di ricerca vettoriale e ad altri fattori.
num_neighbors: specifica il numero di vicini da restituire. Questo valore override il valore impostato al momento della creazione dell'indice di ricerca vettoriale.

Filtrare i vector embedding

Utilizza colonne aggiuntive come predicati per perfezionare il filtraggio dei risultati della query di incorporamento vettoriale. Ad esempio, se aggiungi una colonna printyear, puoi aggiungere un valore di anno specifico come filtro alla query.

SELECT title FROM books
WHERE
NEAREST(embedding) TO (string_to_vector('[1,2,3]'))
AND printyear > 1991;

Eseguire query sulla distanza di un vector embedding

Questa sezione fornisce esempi di funzioni di distanza vettoriale disponibili per la ricerca KNN.

Ottenere la distanza coseno

SELECT cosine_distance(embedding, string_to_vector('[3,1,2]'))
AS distance FROM books WHERE id=10;

Ottenere la distanza prodotto scalare

SELECT dot_product(embedding, string_to_vector('[3,1,2]'))
AS distance FROM books WHERE id=10;

Ottenere la distanza al quadrato L2

SELECT l2_squared_distance(embedding, string_to_vector('[3,1,2]'))
AS distance FROM books WHERE id=10;

Ottenere le righe entro una determinata distanza

SELECT * FROM books
WHERE l2_squared_distance(embedding, string_to_vector('[1,2,3]')) < 10;

Puoi combinarlo con ORDER BY e LIMIT

SELECT id, vector_to_string(embedding),
       l2_squared_distance(embedding, string_to_vector('[1,2,3]')) dist
FROM books ORDER BY dist LIMIT 10;

Monitorare gli indici di ricerca vettoriale

Per ottenere informazioni in tempo reale su tutti gli indici di ricerca vettoriale nell'istanza, utilizza la tabella information_schema.innodb_vector_indexes.

Per visualizzare la tabella, esegui questo comando:

SELECT * FROM information_schema.innodb_vector_indexes;

L'output di esempio potrebbe essere simile al seguente:

*************************** 1. row ***************************
       INDEX_NAME: test.t4_index
       TABLE_NAME: test.t4_bf
       INDEX_TYPE: BRUTE_FORCE
     DIST_MEASURE: SquaredL2Distance
           STATUS: Ready
            STATE: INDEX_READY_TO_USE
       PARTITIONS: 0
SEARCH_PARTITIONS: 0
     INITIAL_SIZE: 40000
     CURRENT_SIZE: 40000
          QUERIES: 0
        MUTATIONS: 0
     INDEX_MEMORY: 160000
   DATASET_MEMORY: 0

Nella tabella information_schema.innodb_vector_indexes puoi visualizzare le seguenti informazioni:

Le opzioni potenzialmente generate. In altre parole, num_partitions o il numero di partizioni da analizzare per una query.
Le colonne STATE e STATUS indicano lo stato attuale dell'indice. Durante la fase di creazione, la colonna dello stato fornisce informazioni sullo stato di avanzamento dell'indice di ricerca vettoriale.
La colonna INITIAL_SIZE fornisce le dimensioni della tabella durante la creazione dell'indice. Puoi confrontare questa dimensione con CURRENT_SIZE per farti un'idea di quanto sia cambiato l'indice dalla sua creazione a causa delle DML nella tabella di base.
Le colonne QUERIES e MUTATIONS forniscono informazioni in tempo reale sull'utilizzo dell'indice.
Le colonne INDEX_MEMORY e DATASET_MEMORY forniscono informazioni sul consumo di memoria dell'indice. INDEX_MEMORY indica la quantità di memoria utilizzata dall'indice e DATASET_MEMORY indica la quantità di memoria aggiuntiva utilizzata durante il tempo di compilazione.

Per ottenere un elenco degli indici vettoriali di ricerca creati nell'istanza, puoi visualizzare la tabella del dizionario dei dati mysql.vector_indexes.