Cercare gli embedding con la ricerca vettoriale

Questo tutorial mostra come eseguire una ricerca di somiglianze su incorporamenti archiviati nelle tabelle BigQuery utilizzando la funzione VECTOR_SEARCH e, facoltativamente, un indice vettoriale.

Quando utilizzi VECTOR_SEARCH con un indice vettoriale, VECTOR_SEARCH utilizza il metodo Approximate Nearest Neighbor per migliorare le prestazioni della ricerca vettoriale, con il compromesso di ridurre il richiamo e quindi restituire risultati più approssimativi. Senza un indice vettoriale, VECTOR_SEARCH utilizza la ricerca esaustiva per misurare la distanza per ogni record.

Autorizzazioni obbligatorie

Per eseguire questo tutorial, devi disporre delle seguenti autorizzazioni Identity and Access Management (IAM):

  • Per creare un set di dati, devi disporre dell'autorizzazione bigquery.datasets.create.
  • Per creare una tabella, devi disporre delle seguenti autorizzazioni:

    • bigquery.tables.create
    • bigquery.tables.updateData
    • bigquery.jobs.create
  • Per creare un indice vettoriale, devi disporre dell'autorizzazione bigquery.tables.createIndex per la tabella in cui stai creando l'indice.

  • Per eliminare un indice vettoriale, devi disporre dell'autorizzazione bigquery.tables.deleteIndex per la tabella in cui stai eliminando l'indice.

Ciascuno dei seguenti ruoli IAM predefiniti include le autorizzazioni necessarie per lavorare con gli indici vettoriali:

  • BigQuery Data Owner (roles/bigquery.dataOwner)
  • Editor dati BigQuery (roles/bigquery.dataEditor)

Costi

La funzione VECTOR_SEARCH utilizza i prezzi di calcolo di BigQuery. Ti viene addebitato il costo della ricerca per similarità, utilizzando i prezzi on demand o delle edizioni.

  • On demand: ti viene addebitato l'importo dei byte scansionati nella tabella di base, nell'indice e nella query di ricerca.
  • Prezzi delle edizioni: ti vengono addebitati gli slot necessari per completare il job all'interno dell'edizione della prenotazione. Calcoli di similarità più grandi e complessi comportano costi maggiori.

Per ulteriori informazioni, vedi Prezzi di BigQuery.

Prima di iniziare

  1. In the Trusted Cloud console, on the project selector page, select or create a Trusted Cloud project.

    Go to project selector

  2. Verify that billing is enabled for your Trusted Cloud project.

  3. Enable the BigQuery API.

    Enable the API

Crea un set di dati

Crea un set di dati BigQuery:

  1. Nella console Trusted Cloud , vai alla pagina BigQuery.

    Vai alla pagina BigQuery

  2. Nel riquadro Explorer, fai clic sul nome del progetto.

  3. Fai clic su Visualizza azioni > Crea set di dati.

    Crea un set di dati che contenga gli oggetti utilizzati nel tutorial.

  4. Nella pagina Crea set di dati:

    • In ID set di dati, inserisci vector_search.

    • Per Tipo di località, seleziona Multi-regione e poi Stati Uniti (più regioni negli Stati Uniti).

      I set di dati pubblici sono archiviati nella US multiregione. Per semplicità, memorizza il set di dati nella stessa posizione.

    • Lascia invariate le restanti impostazioni predefinite e fai clic su Crea set di dati.

Creare tabelle di test

  1. Crea la tabella patents contenente gli incorporamenti dei brevetti, in base a un sottoinsieme del set di dati pubblico Google Patents:

    CREATE TABLE vector_search.patents AS
    SELECT * FROM `patents-public-data.google_patents_research.publications`
    WHERE ARRAY_LENGTH(embedding_v1) > 0
     AND publication_number NOT IN ('KR-20180122872-A')
    LIMIT 1000000;
  2. Crea la tabella patents2 che contiene un embedding di brevetti per trovare i vicini più prossimi per:

    CREATE TABLE vector_search.patents2 AS
    SELECT * FROM `patents-public-data.google_patents_research.publications`
    WHERE publication_number = 'KR-20180122872-A';

Crea un indice vettoriale

  1. Crea l'indice vettoriale my_index nella colonna embeddings_v1 della tabella patents:

    CREATE OR REPLACE VECTOR INDEX my_index ON vector_search.patents(embedding_v1)
    STORING(publication_number, title)
    OPTIONS(distance_type='COSINE', index_type='IVF');
  2. Attendi alcuni minuti per la creazione dell'indice vettoriale, quindi esegui la query seguente e verifica che il valore di coverage_percentage sia 100:

    SELECT * FROM vector_search.INFORMATION_SCHEMA.VECTOR_INDEXES;

Utilizzare la funzione VECTOR_SEARCH con un indice

Dopo aver creato e compilato l'indice vettoriale, utilizza la funzione VECTOR_SEARCH per trovare il vicino più prossimo per l'incorporamento nella colonna embedding_v1 della tabella patents2. Questa query utilizza l'indice vettoriale nella ricerca, quindi VECTOR_SEARCH utilizza un metodo Approximate Nearest Neighbor per trovare il vicino più prossimo dell'incorporamento.

Utilizza la funzione VECTOR_SEARCH con un indice:

SELECT query.publication_number AS query_publication_number,
  query.title AS query_title,
  base.publication_number AS base_publication_number,
  base.title AS base_title,
  distance
FROM
  VECTOR_SEARCH(
    TABLE vector_search.patents,
    'embedding_v1',
    TABLE vector_search.patents2,
    top_k => 5,
    distance_type => 'COSINE',
    options => '{"fraction_lists_to_search": 0.005}');

I risultati sono simili ai seguenti:

+--------------------------+-------------------------------------------------------------+-------------------------+--------------------------------------------------------------------------------------------------------------------------+---------------------+
| query_publication_number |                         query_title                         | base_publication_number |                                                        base_title                                                        |      distance       |
+--------------------------+-------------------------------------------------------------+-------------------------+--------------------------------------------------------------------------------------------------------------------------+---------------------+
| KR-20180122872-A         | Rainwater management system based on rainwater keeping unit | CN-106599080-B          | A kind of rapid generation for keeping away big vast transfer figure based on GIS                                        | 0.14471956347590609 |
| KR-20180122872-A         | Rainwater management system based on rainwater keeping unit | CN-114118544-A          | Urban waterlogging detection method and device                                                                           | 0.17472108931171348 |
| KR-20180122872-A         | Rainwater management system based on rainwater keeping unit | KR-20200048143-A        | Method and system for mornitoring dry stream using unmanned aerial vehicle                                               | 0.17561990745619782 |
| KR-20180122872-A         | Rainwater management system based on rainwater keeping unit | KR-101721695-B1         | Urban Climate Impact Assessment method of Reflecting Urban Planning Scenarios and Analysis System using the same         | 0.17696129365559843 |
| KR-20180122872-A         | Rainwater management system based on rainwater keeping unit | CN-109000731-B          | The experimental rig and method that research inlet for stom water chocking-up degree influences water discharged amount | 0.17902723269642917 |
+--------------------------+-------------------------------------------------------------+-------------------------+--------------------------------------------------------------------------------------------------------------------------+---------------------+

Utilizzare la funzione VECTOR_SEARCH con la forza bruta

Utilizza la funzione VECTOR_SEARCH per trovare il vicino più prossimo per l'incorporamento nella colonna embedding_v1 della tabella patents2. Questa query non utilizza l'indice vettoriale nella ricerca, quindi VECTOR_SEARCH trova il vicino più prossimo esatto dell'incorporamento.

SELECT query.publication_number AS query_publication_number,
  query.title AS query_title,
  base.publication_number AS base_publication_number,
  base.title AS base_title,
  distance
FROM
  VECTOR_SEARCH(
    TABLE vector_search.patents,
    'embedding_v1',
    TABLE vector_search.patents2,
    top_k => 5,
    distance_type => 'COSINE',
    options => '{"use_brute_force":true}');

I risultati sono simili ai seguenti:

+--------------------------+-------------------------------------------------------------+-------------------------+--------------------------------------------------------------------------------------------------------------------------+---------------------+
| query_publication_number |                         query_title                         | base_publication_number |                                                        base_title                                                        |      distance       |
+--------------------------+-------------------------------------------------------------+-------------------------+--------------------------------------------------------------------------------------------------------------------------+---------------------+
| KR-20180122872-A         | Rainwater management system based on rainwater keeping unit | CN-106599080-B          | A kind of rapid generation for keeping away big vast transfer figure based on GIS                                        |  0.1447195634759062 |
| KR-20180122872-A         | Rainwater management system based on rainwater keeping unit | CN-114118544-A          | Urban waterlogging detection method and device                                                                           |  0.1747210893117136 |
| KR-20180122872-A         | Rainwater management system based on rainwater keeping unit | KR-20200048143-A        | Method and system for mornitoring dry stream using unmanned aerial vehicle                                               | 0.17561990745619782 |
| KR-20180122872-A         | Rainwater management system based on rainwater keeping unit | KR-101721695-B1         | Urban Climate Impact Assessment method of Reflecting Urban Planning Scenarios and Analysis System using the same         | 0.17696129365559843 |
| KR-20180122872-A         | Rainwater management system based on rainwater keeping unit | CN-109000731-B          | The experimental rig and method that research inlet for stom water chocking-up degree influences water discharged amount | 0.17902723269642928 |
+--------------------------+-------------------------------------------------------------+-------------------------+--------------------------------------------------------------------------------------------------------------------------+---------------------+

Valutare il richiamo

Quando esegui una ricerca vettoriale con un indice, vengono restituiti risultati approssimativi, con il compromesso di ridurre il richiamo. Puoi calcolare il richiamo confrontando i risultati restituiti dalla ricerca vettoriale con un indice e dalla ricerca vettoriale con la forza bruta. In questo set di dati, il valore publication_number identifica in modo univoco un brevetto, pertanto viene utilizzato per il confronto.

WITH approx_results AS (
  SELECT query.publication_number AS query_publication_number,
    base.publication_number AS base_publication_number
  FROM
    VECTOR_SEARCH(
      TABLE vector_search.patents,
      'embedding_v1',
      TABLE vector_search.patents2,
      top_k => 5,
      distance_type => 'COSINE',
      options => '{"fraction_lists_to_search": 0.005}')
),
  exact_results AS (
  SELECT query.publication_number AS query_publication_number,
    base.publication_number AS base_publication_number
  FROM
    VECTOR_SEARCH(
      TABLE vector_search.patents,
      'embedding_v1',
      TABLE vector_search.patents2,
      top_k => 5,
      distance_type => 'COSINE',
      options => '{"use_brute_force":true}')
)

SELECT
  a.query_publication_number,
  SUM(CASE WHEN a.base_publication_number = e.base_publication_number THEN 1 ELSE 0 END) / 5 AS recall
FROM exact_results e LEFT JOIN approx_results a
  ON e.query_publication_number = a.query_publication_number
GROUP BY a.query_publication_number

Se il richiamo è inferiore a quello che vorresti, puoi aumentare il valore di fraction_lists_to_search, con lo svantaggio di una latenza e un utilizzo delle risorse potenzialmente maggiori. Per ottimizzare la ricerca vettoriale, puoi provare più esecuzioni di VECTOR_SEARCH con valori degli argomenti diversi, salvare i risultati nelle tabelle e poi confrontarli.

Esegui la pulizia

  1. In the Trusted Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.