Algumas ou todas as informações nesta página podem não se aplicar ao Cloud de Confiance da S3NS. Consulte Diferenças do Google Cloud para saber mais.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Analisar PDFs em um pipeline de geração aumentada por recuperação

Este tutorial orienta você no processo de criação de um pipeline de geração aumentada por recuperação (RAG) com base no conteúdo de PDF analisado.

Arquivos PDF, como documentos financeiros, podem ser difíceis de usar em pipelines de RAG devido à estrutura complexa e à mistura de texto, figuras e tabelas. Neste tutorial, mostramos como usar a função ML.PROCESS_DOCUMENT em combinação com o analisador de layout da Document AI para criar um pipeline de RAG com base nas principais informações extraídas de um arquivo PDF.

Objetivos

Este tutorial abrange as seguintes tarefas:

Criar uma conexão a recursos do Cloud para se conectar ao Cloud Storage e à Vertex AI no BigQuery.
Crie um bucket do Cloud Storage e faça upload de um arquivo PDF de amostra.
Criar uma tabela de objetos sobre o arquivo PDF para disponibilizá-lo no BigQuery.
Crie um processador da Document AI que pode ser usado para analisar o arquivo PDF.
Criar um modelo remoto que permite usar a API Document AI para acessar o processador de documentos do BigQuery.
Uso do modelo remoto com a função ML.PROCESS_DOCUMENT para analisar o conteúdo do PDF em partes e gravar esse conteúdo em uma tabela do BigQuery.
Extrair o conteúdo do PDF dos dados JSON retornados pela função ML.PROCESS_DOCUMENT e gravar esse conteúdo em uma tabela do BigQuery.
Gere embeddings com base no conteúdo analisado do PDF e grave-os em uma tabela do BigQuery. Os embeddings são representações numéricas do conteúdo do PDF que permitem realizar pesquisa e recuperação semântica no conteúdo do PDF.
Use a função VECTOR_SEARCH nos embeddings para identificar conteúdo de PDF semanticamente semelhante.
Realize a geração aumentada por recuperação (RAG) usando a função AI.GENERATE para gerar texto, usando resultados da pesquisa vetorial para aumentar a entrada do comando e melhorar os resultados.

Custos

Neste documento, você vai usar os seguintes componentes faturáveis do Cloud de Confiance by S3NS:

BigQuery: You incur costs for the data that you process in BigQuery.
Gemini Enterprise Agent Platform: You incur costs for calls to Agent Platform models.
Document AI: You incur costs for calls to the Document AI API.
Cloud Storage: You incur costs for object storage in Cloud Storage.

Ao concluir as tarefas descritas neste documento, é possível evitar o faturamento contínuo excluindo os recursos criados. Para mais informações, consulte Limpeza.

Antes de começar

Console

In the Cloud de Confiance console, on the project selector page, select or create a Cloud de Confiance project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Cloud de Confiance project.
Enable the BigQuery, BigQuery Connection, Vertex AI, Document AI, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

Verifique se você tem as seguintes funções no projeto: Administrador do Storage, Editor da Document AI, Administrador do BigQuery, Administrador do IAM do projeto
Verificar os papéis
1. No console do Cloud de Confiance , acesse a página IAM.
  Acessar IAM
2. Selecione o projeto.
3. Na coluna Principal, encontre todas as linhas que identificam você ou um grupo no qual você está incluído. Para saber em quais grupos você está incluído, entre em contato com o administrador.
4. Em todas as linhas que especificam ou incluem você, verifique a coluna Papel para ver se a lista de papéis inclui os papéis necessários.
Conceder os papéis
1. No console do Cloud de Confiance , acesse a página IAM.
  Acessar IAM
2. Selecione o projeto.
3. Clique em Conceder acesso.
4. No campo Novos principais, digite seu identificador de usuário. Normalmente, é o identificador de um usuário em um pool de identidades de força de trabalho. Saiba mais em Representar usuários do pool de força de trabalho nas políticas do IAM ou entre em contato com seu administrador.
5. Clique em Selecionar um papel e pesquise o papel.
6. Para conceder outros papéis, adicione-os clicando em Adicionar outro papel.
7. Clique em Salvar.

gcloud

Instale a CLI do Google Cloud.
Configure a CLI gcloud para usar sua identidade federada.

Para mais informações, consulte Fazer login na CLI gcloud com sua identidade federada.
Para inicializar a CLI gcloud, execute o seguinte comando:
```
gcloud init
```
Crie ou selecione um Cloud de Confiance projeto.
Funções necessárias para selecionar ou criar um projeto
- Selecionar um projeto: não é necessário um papel específico do IAM para selecionar um projeto. Você pode escolher qualquer projeto em que tenha recebido um papel.
- Criar um projeto: para criar um projeto, é necessário ter o papel de Criador de projetos (roles/resourcemanager.projectCreator), que contém a permissão resourcemanager.projects.create. Saiba como conceder papéis.
Observação: se você não pretende manter os recursos criados neste procedimento, crie um projeto novo em vez de selecionar um que já existe. Depois de concluir essas etapas, é possível excluir o projeto. Para fazer isso, basta remover todos os recursos associados a ele.
- Crie um projeto do Cloud de Confiance :
```
gcloud projects create PROJECT_ID
```
  Substitua PROJECT_ID por um nome para o projeto Cloud de Confiance que você está criando.
- Selecione o projeto Cloud de Confiance que você criou:
```
gcloud config set project PROJECT_ID
```
  Substitua PROJECT_ID pelo nome do projeto do Cloud de Confiance .
Verifique se o faturamento está ativado para o projeto do Cloud de Confiance .
Ative as APIs BigQuery, BigQuery Connection, Vertex AI, Document AI e Cloud Storage:
Funções necessárias para ativar APIs
Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (roles/serviceusage.serviceUsageAdmin), que contém a permissão serviceusage.services.enable. Saiba como conceder papéis.
```
gcloud services enable bigquery.googleapis.com bigqueryconnection.googleapis.com aiplatform.googleapis.com documentai.googleapis.com storage.googleapis.com
```

Atribua papéis à sua conta de usuário. Execute uma vez o seguinte comando para cada um dos seguintes papéis do IAM: roles/storage.admin, roles/documentai.editor, roles/bigquery.admin, roles/resourcemanager.projectIamAdmin
```
gcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE
```
Substitua:
- PROJECT_ID: o ID do projeto.
- USER_IDENTIFIER: o identificador da sua conta de usuário conta. Para exemplos, consulte Representar usuários do pool de força de trabalho nas políticas do IAM.
- ROLE: o papel do IAM concedido à sua conta de usuário.

crie um conjunto de dados

Crie um conjunto de dados do BigQuery para armazenar seu modelo de ML.

Console

No console do Cloud de Confiance , acesse a página BigQuery.

Acessar a página do BigQuery
No painel Explorer, clique no nome do seu projeto.
Clique em Conferir ações > Criar conjunto de dados.
Na página Criar conjunto de dados, faça o seguinte:
- Para o código do conjunto de dados, insira bqml_tutorial.
- Em Tipo de local, selecione Multirregião e EUA.
- Mantenha as configurações padrão restantes e clique em Criar conjunto de dados.

bq

Para criar um conjunto de dados, use o comando bq mk --dataset.

Crie um conjunto de dados chamado bqml_tutorial com o local dos dados definido como US.

bq mk --dataset \
  --location=US \
  --description "BigQuery ML tutorial dataset." \
  bqml_tutorial

Confirme se o conjunto de dados foi criado:
```
bq ls
```

API

Chame o método datasets.insert com um recurso de conjunto de dados definido.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

Crie uma conexão

Crie uma conexão a recursos do Cloud e tenha acesso à conta de serviço da conexão. Crie a conexão no mesmo local.

Pule esta etapa se você tiver uma conexão padrão configurada ou a função de administrador do BigQuery.

Selecione uma das seguintes opções:

Console

Acessar a página do BigQuery.

Acessar o BigQuery
No painel à esquerda, clique em Explorer:

Se o painel esquerdo não aparecer, clique em Expandir painel esquerdo para abrir.
No painel Explorer, expanda o nome do projeto e clique em Conexões.
Na página Conexões, clique em Criar conexão.
Em Tipo de conexão, escolha Modelos remotos da Vertex AI, funções remotas, BigLake e Spanner (recurso do Cloud).
No campo ID da conexão, insira um nome para a conexão.
Em Tipo de local, selecione um local para sua conexão. A conexão precisa estar alocada com seus outros recursos, como conjuntos de dados.
Clique em Criar conexão.
Clique em Ir para conexão.
No painel Informações da conexão, copie o ID da conta de serviço para uso em uma etapa posterior.

SQL

Use a instrução CREATE CONNECTION:

No console do Cloud de Confiance , acesse a página BigQuery.

Acessar o BigQuery
No editor de consultas, digite a seguinte instrução:
```
CREATE CONNECTION [IF NOT EXISTS] `CONNECTION_NAME`
OPTIONS (
  connection_type = "CLOUD_RESOURCE",
  friendly_name = "FRIENDLY_NAME",
  description = "DESCRIPTION"
  );
```
Substitua:
- CONNECTION_NAME: o nome da conexão no formato PROJECT_ID.LOCATION.CONNECTION_ID, LOCATION.CONNECTION_ID ou CONNECTION_ID. Se o projeto ou local for omitido, eles serão inferidos do projeto e do local em que a instrução é executada.
- FRIENDLY_NAME (opcional): um nome descritivo para a conexão.
- DESCRIPTION (opcional): uma descrição da conexão.
Clique em Executar.

Para mais informações sobre como executar consultas, acesse Executar uma consulta interativa.

bq

Em um ambiente de linha de comando, crie uma conexão:
```
bq mk --connection --location=REGION --project_id=PROJECT_ID \
    --connection_type=CLOUD_RESOURCE CONNECTION_ID
```
O parâmetro --project_id substitui o projeto padrão.

Substitua:
- REGION: sua região de conexão
- PROJECT_ID: o ID do projeto do Cloud de Confiance
- CONNECTION_ID: um ID para sua conexão
Quando você cria um recurso de conexão, o BigQuery cria uma conta de serviço do sistema exclusiva e a associa à conexão.

Solução de problemas: se você receber o seguinte erro de conexão, atualize o SDK Google Cloud:
```
Flags parsing error: flag --connection_type=CLOUD_RESOURCE: value should be one of...
```

Recupere e copie o ID da conta de serviço para uso em uma etapa posterior:

bq show --connection PROJECT_ID.REGION.CONNECTION_ID

O resultado será o seguinte:

name                          properties
1234.REGION.CONNECTION_ID     {"serviceAccountId": "connection-1234-9u56h9@gcp-sa-bigquery-condel.s3ns-system.iam.gserviceaccount.com"}

Python

Antes de testar esta amostra, siga as instruções de configuração do Python no Guia de início rápido do BigQuery: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API BigQuery em Python.

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.

Antes de executar exemplos de código, defina a variável de ambiente GOOGLE_CLOUD_UNIVERSE_DOMAIN como s3nsapis.fr.

import google.api_core.exceptions
from google.cloud import bigquery_connection_v1

client = bigquery_connection_v1.ConnectionServiceClient()


def create_connection(
    project_id: str,
    location: str,
    connection_id: str,
):
    """Creates a BigQuery connection to a Cloud Resource.

    Cloud Resource connection creates a service account which can then be
    granted access to other Google Cloud resources for federated queries.

    Args:
        project_id: The Google Cloud project ID.
        location: The location of the connection (for example, "us-central1").
        connection_id: The ID of the connection to create.
    """

    parent = client.common_location_path(project_id, location)

    connection = bigquery_connection_v1.Connection(
        friendly_name="Example Connection",
        description="A sample connection for a Cloud Resource.",
        cloud_resource=bigquery_connection_v1.CloudResourceProperties(),
    )

    try:
        created_connection = client.create_connection(
            parent=parent, connection_id=connection_id, connection=connection
        )
        print(f"Successfully created connection: {created_connection.name}")
        print(f"Friendly name: {created_connection.friendly_name}")
        print(
            f"Service Account: {created_connection.cloud_resource.service_account_id}"
        )

    except google.api_core.exceptions.AlreadyExists:
        print(f"Connection with ID '{connection_id}' already exists.")
        print("Please use a different connection ID.")
    except Exception as e:
        print(f"An unexpected error occurred while creating the connection: {e}")

Node.js

Antes de testar esta amostra, siga as instruções de configuração do Node.js no Guia de início rápido do BigQuery: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API BigQuery em Node.js.

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.

Antes de executar exemplos de código, defina a variável de ambiente GOOGLE_CLOUD_UNIVERSE_DOMAIN como s3nsapis.fr.

const {ConnectionServiceClient} =
  require('@google-cloud/bigquery-connection').v1;
const {status} = require('@grpc/grpc-js');

const client = new ConnectionServiceClient();

/**
 * Creates a new BigQuery connection to a Cloud Resource.
 *
 * A Cloud Resource connection creates a service account that can be granted access
 * to other Google Cloud resources.
 *
 * @param {string} projectId The Google Cloud project ID. for example, 'example-project-id'
 * @param {string} location The location of the project to create the connection in. for example, 'us-central1'
 * @param {string} connectionId The ID of the connection to create. for example, 'example-connection-id'
 */
async function createConnection(projectId, location, connectionId) {
  const parent = client.locationPath(projectId, location);

  const connection = {
    friendlyName: 'Example Connection',
    description: 'A sample connection for a Cloud Resource',
    // The service account for this cloudResource will be created by the API.
    // Its ID will be available in the response.
    cloudResource: {},
  };

  const request = {
    parent,
    connectionId,
    connection,
  };

  try {
    const [response] = await client.createConnection(request);

    console.log(`Successfully created connection: ${response.name}`);
    console.log(`Friendly name: ${response.friendlyName}`);

    console.log(`Service Account: ${response.cloudResource.serviceAccountId}`);
  } catch (err) {
    if (err.code === status.ALREADY_EXISTS) {
      console.log(`Connection '${connectionId}' already exists.`);
    } else {
      console.error(`Error creating connection: ${err.message}`);
    }
  }
}

Terraform

Use o recurso google_bigquery_connection.

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.

O exemplo a seguir cria uma conexão a recursos do Cloud chamada my_cloud_resource_connection na região US:


# This queries the provider for project information.
data "google_project" "default" {}

# This creates a cloud resource connection in the US region named my_cloud_resource_connection.
# Note: The cloud resource nested object has only one output field - serviceAccountId.
resource "google_bigquery_connection" "default" {
  connection_id = "my_cloud_resource_connection"
  project       = data.google_project.default.project_id
  location      = "US"
  cloud_resource {}
}

Para aplicar a configuração do Terraform em um Cloud de Confiance projeto, siga as etapas nas seções a seguir.

Preparar o Cloud Shell

Inicie o Cloud Shell.
Defina o projeto Cloud de Confiance padrão em que você quer aplicar as configurações do Terraform.

Você só precisa executar esse comando uma vez por projeto, e ele pode ser executado em qualquer diretório.
```
export GOOGLE_CLOUD_PROJECT=PROJECT_ID
```
As variáveis de ambiente serão substituídas se você definir valores explícitos no arquivo de configuração do Terraform.

Preparar o diretório

Cada arquivo de configuração do Terraform precisa ter o próprio diretório, também chamado de módulo raiz.

No Cloud Shell, crie um diretório e um novo arquivo dentro dele. O nome do arquivo precisa ter a extensão .tf, por exemplo, main.tf. Neste tutorial, o arquivo é chamado de main.tf.
```
mkdir DIRECTORY && cd DIRECTORY && touch main.tf
```
Se você estiver seguindo um tutorial, poderá copiar o exemplo de código em cada seção ou etapa.

Copie o exemplo de código no main.tf recém-criado.

Se preferir, copie o código do GitHub. Isso é recomendado quando o snippet do Terraform faz parte de uma solução de ponta a ponta.
Revise e modifique os parâmetros de amostra para aplicar ao seu ambiente.
Salve as alterações.
Inicialize o Terraform. Você só precisa fazer isso uma vez por diretório.
```
terraform init
```
Opcionalmente, para usar a versão mais recente do provedor do Google, inclua a opção -upgrade:
```
terraform init -upgrade
```

Aplique as alterações

Revise a configuração e verifique se os recursos que o Terraform vai criar ou atualizar correspondem às suas expectativas:
```
terraform plan
```
Faça as correções necessárias na configuração.
Para aplicar a configuração do Terraform, execute o comando a seguir e digite yes no prompt:
```
terraform apply
```
Aguarde até que o Terraform exiba a mensagem "Apply complete!".
Abra seu Cloud de Confiance projeto para conferir os resultados. No console do Cloud de Confiance , navegue até seus recursos na UI para verificar se foram criados ou atualizados pelo Terraform.

Conceder acesso à conta de serviço

Selecione uma das seguintes opções:

Console

Acesse a página IAM e administrador.

Acessar IAM e administrador
Clique em Conceder acesso.

A caixa de diálogo Adicionar principais é aberta.
No campo Novos principais, digite o ID da conta de serviço que você copiou anteriormente.
No campo Selecionar um papel, selecione Document AI e, em seguida, Leitor da Document AI.
Clique em Adicionar outro papel.
No campo Selecionar papel, escolha Cloud Storage e, em seguida, Visualizador de objetos do Storage.
Clique em Adicionar outro papel.
No campo Selecionar um papel, selecione Vertex AI e, em seguida, Usuário da Agent Platform.
Clique em Salvar.

gcloud

Use o comando gcloud projects add-iam-policy-binding (em inglês).

gcloud projects add-iam-policy-binding 'PROJECT_NUMBER' --member='serviceAccount:MEMBER' --role='roles/documentai.viewer' --condition=None
gcloud projects add-iam-policy-binding 'PROJECT_NUMBER' --member='serviceAccount:MEMBER' --role='roles/storage.objectViewer' --condition=None
gcloud projects add-iam-policy-binding 'PROJECT_NUMBER' --member='serviceAccount:MEMBER' --role='roles/aiplatform.user' --condition=None

Substitua:

PROJECT_NUMBER: o número do projeto.
MEMBER: o ID da conta de serviço que você copiou anteriormente.

Fazer upload do PDF de amostra para o Cloud Storage

Para fazer upload do PDF de amostra para o Cloud Storage, siga estas etapas:

Baixe o PDF de amostra scf23.pdf em https://www.federalreserve.gov/publications/files/scf23.pdf e clique em "Baixar" .
Crie um bucket do Cloud Storage.
Faça upload do arquivo scf23.pdf para o bucket.

criar uma tabela de objetos

Crie uma tabela de objetos sobre o arquivo PDF no Cloud Storage:

No console do Cloud de Confiance , acesse a página BigQuery.

Acessar o BigQuery
No editor de consultas, execute a seguinte instrução:
```
CREATE OR REPLACE EXTERNAL TABLE `bqml_tutorial.pdf`
WITH CONNECTION `LOCATION.CONNECTION_ID`
OPTIONS(
  object_metadata = 'SIMPLE',
  uris = ['gs://BUCKET/scf23.pdf']);
```
Substitua:
- LOCATION: o local da conexão.
- CONNECTION_ID: o ID da sua conexão do BigQuery.
  Quando você visualiza os detalhes da conexão no console do Cloud de Confiance , o CONNECTION_ID é o valor na última seção do ID da conexão totalmente qualificado, mostrado em ID da conexão, por exemplo, projects/myproject/locations/connection_location/connections/myconnection.
- BUCKET: o bucket do Cloud Storage que contém o arquivo scf23.pdf. O valor completo da opção uri precisa ser semelhante a ['gs://mybucket/scf23.pdf'].

Criar um processador de documentos

Crie um processador de documentos com base no processador de análise de layout na multirregião us. Copie o endpoint de previsão da página Detalhes do processador para usar na próxima seção.

Criar o modelo remoto para o processador de documentos

Crie um modelo remoto para acessar o processador da Document AI:

No console do Cloud de Confiance , acesse a página BigQuery.

Acessar o BigQuery
No editor de consultas, execute a seguinte instrução:
```
CREATE OR REPLACE MODEL `bqml_tutorial.parser_model`
REMOTE WITH CONNECTION `LOCATION.CONNECTION_ID`
  OPTIONS(remote_service_type = 'CLOUD_AI_DOCUMENT_V1', document_processor = 'PROCESSOR_ID');
```
Substitua:
- LOCATION: o local da conexão.
- CONNECTION_ID: o ID da sua conexão do BigQuery.
  Quando você visualiza os detalhes da conexão no console do Cloud de Confiance , o CONNECTION_ID é o valor na última seção do ID da conexão totalmente qualificado, mostrado em ID da conexão, por exemplo, projects/myproject/locations/connection_location/connections/myconnection.
- PROCESSOR_ID: o ID do processador de documentos. Para encontrar esse valor, confira os detalhes do processador e observe a linha ID na seção Informações básicas.

Analise o arquivo PDF em partes

Use o processador de documentos com a função ML.PROCESS_DOCUMENT para analisar o arquivo PDF em partes e gravar esse conteúdo em uma tabela. A função ML.PROCESS_DOCUMENT retorna os blocos de PDF no formato JSON.

No console do Cloud de Confiance , acesse a página BigQuery.

Acessar o BigQuery

No editor de consultas, execute a seguinte instrução:

CREATE or REPLACE TABLE bqml_tutorial.chunked_pdf AS (
  SELECT * FROM ML.PROCESS_DOCUMENT(
  MODEL bqml_tutorial.parser_model,
  TABLE bqml_tutorial.pdf,
  PROCESS_OPTIONS => (JSON '{"layout_config": {"chunking_config": {"chunk_size": 250}}}')
  )
);

Analise os dados de partes do PDF em colunas separadas

Extraia o conteúdo do PDF e as informações de metadados dos dados JSON retornados pela função ML.PROCESS_DOCUMENT e grave esse conteúdo em uma tabela:

No console do Cloud de Confiance , acesse a página BigQuery.

Acessar o BigQuery

No editor de consultas, execute a seguinte instrução para analisar o conteúdo do PDF:

CREATE OR REPLACE TABLE bqml_tutorial.parsed_pdf AS (
SELECT
  uri,
  JSON_EXTRACT_SCALAR(json , '$.chunkId') AS id,
  JSON_EXTRACT_SCALAR(json , '$.content') AS content,
  JSON_EXTRACT_SCALAR(json , '$.pageFooters[0].text') AS page_footers_text,
  JSON_EXTRACT_SCALAR(json , '$.pageSpan.pageStart') AS page_span_start,
  JSON_EXTRACT_SCALAR(json , '$.pageSpan.pageEnd') AS page_span_end
FROM bqml_tutorial.chunked_pdf, UNNEST(JSON_EXTRACT_ARRAY(ml_process_document_result.chunkedDocument.chunks, '$')) json
);

No editor de consultas, execute a seguinte instrução para ver um subconjunto do conteúdo do PDF analisado:

SELECT *
FROM `bqml_tutorial.parsed_pdf`
ORDER BY id
LIMIT 5;

O resultado será o seguinte:

+-----------------------------------+------+------------------------------------------------------------------------------------------------------+-------------------+-----------------+---------------+
|                uri                |  id  |                                                 content                                              | page_footers_text | page_span_start | page_span_end |
+-----------------------------------+------+------------------------------------------------------------------------------------------------------+-------------------+-----------------+---------------+
| gs://mybucket/scf23.pdf           | c1   | •BOARD OF OF FEDERAL GOVERN NOR RESERVE SYSTEM RESEARCH & ANALYSIS                                   | NULL              | 1               | 1             |
| gs://mybucket/scf23.pdf           | c10  | • In 2022, 20 percent of all families, 14 percent of families in the bottom half of the usual ...    | NULL              | 8               | 9             |
| gs://mybucket/scf23.pdf           | c100 | The SCF asks multiple questions intended to capture whether families are credit constrained, ...     | NULL              | 48              | 48            |
| gs://mybucket/scf23.pdf           | c101 | Bankruptcy behavior over the past five years is based on a series of retrospective questions ...     | NULL              | 48              | 48            |
| gs://mybucket/scf23.pdf           | c102 | # Percentiles of the Distributions of Income and Net Worth                                           | NULL              | 48              | 49            |
+-----------------------------------+------+------------------------------------------------------------------------------------------------------+-------------------+-----------------+---------------+

Gerar embeddings

Gere embeddings para o conteúdo do PDF analisado e grave-os em uma tabela:

No console do Cloud de Confiance , acesse a página BigQuery.

Acessar o BigQuery

No editor de consultas, execute a seguinte instrução:

CREATE OR REPLACE TABLE `bqml_tutorial.embeddings` AS (
  SELECT *, AI.EMBED(content, endpoint => 'text-embedding-005').result AS embedding
  FROM bqml_tutorial.parsed_pdf
);

executar uma pesquisa vetorial

Faça uma pesquisa vetorial no conteúdo do PDF analisado.

A consulta a seguir recebe uma entrada de texto, cria um embedding para essa entrada usando a função AI.EMBED e usa a função VECTOR_SEARCH para corresponder o embedding de entrada aos embeddings de conteúdo de PDF mais semelhantes. Os resultados são os dez principais trechos de PDF mais relacionados a mudanças no patrimônio líquido da família.

Acessar a página do BigQuery.

Acessar o BigQuery

No editor de consultas, execute a seguinte instrução SQL:

SELECT
  distance,
  base.id AS chunk_id,
  base.page_span_start AS start_page,
  base.page_span_end AS end_page,
  base.content
FROM
  VECTOR_SEARCH(
    TABLE `bqml_tutorial.embeddings`,
    'embedding',
    query_value =>
      AI.EMBED(
        'Did the typical family net worth increase? If so, by how much?',
        endpoint => 'text-embedding-005').result,
    top_k => 3,
    OPTIONS => '{"fraction_lists_to_search": 0.01}')
ORDER BY distance DESC;

O resultado será o seguinte:

+----------+----------+------------+----------+-----------------------------------+
| distance | chunk_id | start_page | end_page | content                           |
+----------+----------+------------+----------+-----------------------------------+
| 0.645685 | 26       | 17         | 18       | 18 Between the first quarter of   |
|          |          |            |          | 2019 and the first quarter of...  |
+----------+----------+------------+----------+-----------------------------------+
| 0.602665 | 30       | 19         | 21       | ## Net Worth by Family            |
|          |          |            |          | Characteristics...                |
+----------+----------+------------+----------+-----------------------------------+
| 0.599438 | 24       | 17         | 21       | # Net Worth                       |
|          |          |            |          | The net improvements in...        |
+----------+----------+------------+----------+-----------------------------------+

Gerar texto aumentado pelos resultados da pesquisa vetorial

Realize uma pesquisa vetorial nos embeddings para identificar conteúdo de PDF semanticamente semelhante e use a função AI.GENERATE com os resultados da pesquisa vetorial para aumentar a entrada do comando e melhorar os resultados da geração de texto. Nesse caso, a consulta usa informações dos fragmentos do PDF para responder a uma pergunta sobre a mudança no patrimônio líquido da família na última década.

No console do Cloud de Confiance , acesse a página BigQuery.

Acessar o BigQuery

No editor de consultas, execute a seguinte instrução:

SELECT
  AI.GENERATE(
    CONCAT('Did the typical family net worth change? How does this compare the SCF survey a decade earlier? Be concise and use the following context:',
            STRING_AGG(FORMAT("context: %s", base.content), ',\n')
    ),
    endpoint => 'gemini-2.5-pro'
  ).result AS response
FROM
  VECTOR_SEARCH(
    TABLE `bqml_tutorial.embeddings`,
    'embedding',
    query_value =>
      AI.EMBED(
        'Did the typical family net worth increase? If so, by how much?',
        endpoint => 'text-embedding-005').result,
    top_k => 3,
    OPTIONS => '{"fraction_lists_to_search": 0.01}')

O resultado será assim:

+-------------------------------------------------------------------------+
| response                                                                |
+-------------------------------------------------------------------------+
| Yes, the typical family net worth changed significantly.                |
|                                                                         |
| Real median net worth surged 37% between the 2019 and 2022 SCF surveys. |
| This contrasts sharply with a decade earlier (2010-2013), when real     |
| median net worth decreased 2%.                                          |
+-------------------------------------------------------------------------+

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Excluir o projeto

Excluir um projeto do Cloud de Confiance :

gcloud projects delete PROJECT_ID

A seguir

Saiba mais sobre a função ML.PROCESS_DOCUMENT.
Saiba mais sobre como realizar pesquisas semânticas e RAG.

Analisar PDFs em um pipeline de geração aumentada por recuperação

Objetivos

Custos

Antes de começar

Console

Verificar os papéis

Conceder os papéis

gcloud

crie um conjunto de dados

Console

bq

API

Crie uma conexão

Console

SQL

bq

Python

Node.js

Terraform

Preparar o Cloud Shell

Preparar o diretório

Aplique as alterações

Conceder acesso à conta de serviço

Console

gcloud

Fazer upload do PDF de amostra para o Cloud Storage

criar uma tabela de objetos

Criar um processador de documentos

Criar o modelo remoto para o processador de documentos

Analise o arquivo PDF em partes

Analise os dados de partes do PDF em colunas separadas

Gerar embeddings

executar uma pesquisa vetorial

Gerar texto aumentado pelos resultados da pesquisa vetorial

Limpar

Excluir o projeto

A seguir