Controlar custos com cotas de token

Neste documento, descrevemos como definir e gerenciar limites diários no número de tokens de entrada e saída consumidos por funções de IA generativa.

As funções de IA generativa do BigQuery usam modelos de linguagem grandes (LLMs) para realizar análises avançadas nas suas consultas SQL. Como o uso de LLMs geralmente é faturado com base no número de tokens processados, o BigQuery oferece cotas de tokens para ajudar você a gerenciar e controlar os custos associados ao uso dessas funções.

As cotas de token se aplicam a funções SQL do BigQuery projetadas para todas as tarefas de inferência de IA generativa que usam LLMs do Gemini, como as funções AI.CLASSIFY e AI.GENERATE.

Detalhes da cota

O BigQuery oferece as seguintes cotas diárias com base no uso de tokens de LLM. O uso de tokens está diretamente relacionado ao faturamento da Vertex AI para funções de IA generativa do BigQuery que usam modelos do Gemini. Essas cotas são rastreadas globalmente em todas as regiões.

Essas cotas de tokens governam o número de tokens de entrada e saída processados pelos LLMs para funções de IA generativa:

  • Tokens de entrada: tokens enviados ao modelo para processamento. Isso inclui tokens no texto do comando e outros dados fornecidos ao modelo como entrada.
  • Tokens de saída: tokens gerados pelo modelo na resposta. Isso inclui tokens no texto gerado (tokens candidatos) e tokens gerados durante as etapas de raciocínio interno (tokens de pensamento).
Nome da cota Métrica Scope Valor padrão
GenAiInputTokensPerDay Tokens de entrada usados pelo LLM Por dia e por projeto 200.000.000.000
GenAiInputTokensPerUserPerDay Tokens de entrada usados pelo LLM Por dia por usuário 40.000.000.000
GenAiOutputTokensPerDay Tokens de saída e pensamento usados pelo LLM Por dia e por projeto 20.000.000.000
GenAiOutputTokensPerUserPerDay Tokens de saída e pensamento usados pelo LLM Por dia por usuário 4.000.000.000

Essas cotas são rastreadas em incrementos de milhões de tokens. Embora seja possível definir limites precisos, valores menores que alguns milhões de tokens podem não ser refletidos com precisão perfeita devido à natureza da geração de relatórios e da agregação de tokens.

Os tokens armazenados em cache não contam para as cotas.

Gerenciar cotas

Dependendo do uso de recursos, talvez você queira ver ou ajustar os valores de cota de token para mais ou para menos. Use o console Cloud de Confiance para realizar estas tarefas:

  1. No console do Cloud de Confiance , acesse a página IAM e administrador > Cotas e limites do sistema.

    Acesse Cotas e limites do sistema

  2. Filtre as cotas inserindo Service: BigQuery API.

  3. Pesquise uma cota específica na lista (por exemplo, pesquise GenAiInputTokensPerDay).

  4. Clique em Editar.

  5. Aumente ou diminua a cota no painel Mudanças de cota inserindo um novo valor.

  6. Clique em Enviar solicitação.

Comportamento de aplicação de cota

O BigQuery monitora o consumo de tokens em várias etapas da execução de consultas:

  • Verificação pré-execução:o BigQuery verifica a cota de tokens disponível antes de executar uma consulta que contém funções de IA generativa. Se a cota relevante (por exemplo, tokens de entrada diários do projeto) já estiver esgotada, a consulta será rejeitada com um erro QuotaExceeded.
  • Durante a execução:se uma consulta estiver em execução e consumir tokens de forma que esgote qualquer uma das cotas configuradas (entrada ou saída, por projeto ou por usuário), novas chamadas de LLM nessa consulta serão rejeitadas.
    • Todas as linhas restantes que dependem de chamadas de LLM encontram um erro de esgotamento de cota.
    • O resultado da consulta depende do argumento max_error_ratio se usado em funções como AI.IF. Se a taxa de erros permanecer dentro do limite permitido, resultados parciais poderão ser retornados. Caso contrário, toda a consulta falhará.
    • As consultas subsequentes que tentarem usar funções de IA generativa vão falhar com um erro QuotaExceeded até que a cota diária seja redefinida.

Considerações importantes

  • Cotas globais:as cotas definidas são globais. O uso de tokens é agregado em todas as regiões em que seu projeto opera, oferecendo um mecanismo unificado de controle de custos. Isso evita cobranças inesperadas pelo uso em diferentes regiões.
  • Capacidade provisionada:se você estiver usando modelos da Vertex AI com capacidade provisionada, o faturamento não será baseado no uso de tokens. Defina essas cotas de tokens do BigQuery com um valor alto para evitar o bloqueio desnecessário das consultas.

A seguir