Controlar custos com cotas de token
Neste documento, descrevemos como definir e gerenciar limites diários no número de tokens de entrada e saída consumidos por funções de IA generativa.As funções de IA generativa do BigQuery usam modelos de linguagem grandes (LLMs) para realizar análises avançadas nas suas consultas SQL. Como o uso de LLMs geralmente é faturado com base no número de tokens processados, o BigQuery oferece cotas de tokens para ajudar você a gerenciar e controlar os custos associados ao uso dessas funções.
As cotas de token se aplicam a funções SQL do BigQuery projetadas para todas as tarefas de inferência de IA generativa que usam LLMs do Gemini, como as funções
AI.CLASSIFY
e
AI.GENERATE.
Detalhes da cota
O BigQuery oferece as seguintes cotas diárias com base no uso de tokens de LLM. O uso de tokens está diretamente relacionado ao faturamento da Vertex AI para funções de IA generativa do BigQuery que usam modelos do Gemini. Essas cotas são rastreadas globalmente em todas as regiões.
Essas cotas de tokens governam o número de tokens de entrada e saída processados pelos LLMs para funções de IA generativa:
- Tokens de entrada: tokens enviados ao modelo para processamento. Isso inclui tokens no texto do comando e outros dados fornecidos ao modelo como entrada.
- Tokens de saída: tokens gerados pelo modelo na resposta. Isso inclui tokens no texto gerado (tokens candidatos) e tokens gerados durante as etapas de raciocínio interno (tokens de pensamento).
| Nome da cota | Métrica | Scope | Valor padrão |
|---|---|---|---|
GenAiInputTokensPerDay |
Tokens de entrada usados pelo LLM | Por dia e por projeto | 200.000.000.000 |
GenAiInputTokensPerUserPerDay |
Tokens de entrada usados pelo LLM | Por dia por usuário | 40.000.000.000 |
GenAiOutputTokensPerDay |
Tokens de saída e pensamento usados pelo LLM | Por dia e por projeto | 20.000.000.000 |
GenAiOutputTokensPerUserPerDay |
Tokens de saída e pensamento usados pelo LLM | Por dia por usuário | 4.000.000.000 |
Essas cotas são rastreadas em incrementos de milhões de tokens. Embora seja possível definir limites precisos, valores menores que alguns milhões de tokens podem não ser refletidos com precisão perfeita devido à natureza da geração de relatórios e da agregação de tokens.
Os tokens armazenados em cache não contam para as cotas.
Gerenciar cotas
Dependendo do uso de recursos, talvez você queira ver ou ajustar os valores de cota de token para mais ou para menos. Use o console Cloud de Confiance para realizar estas tarefas:
No console do Cloud de Confiance , acesse a página IAM e administrador > Cotas e limites do sistema.
Filtre as cotas inserindo
Service: BigQuery API.Pesquise uma cota específica na lista (por exemplo, pesquise
GenAiInputTokensPerDay).Clique em Editar.
Aumente ou diminua a cota no painel Mudanças de cota inserindo um novo valor.
- Se as cargas de trabalho exigirem mais capacidade do que o limite padrão, solicite um aumento de cota.
- Se você quiser limitar ainda mais o uso para evitar estouros de orçamento, crie uma substituição de cota para limitar o uso.
Clique em Enviar solicitação.
Comportamento de aplicação de cota
O BigQuery monitora o consumo de tokens em várias etapas da execução de consultas:
- Verificação pré-execução:o BigQuery verifica a cota de tokens disponível antes de executar uma consulta que contém funções de IA generativa. Se a cota relevante (por exemplo, tokens de entrada diários do projeto) já estiver esgotada, a consulta será rejeitada com um erro
QuotaExceeded. - Durante a execução:se uma consulta estiver em execução e consumir tokens de forma que esgote qualquer uma das cotas configuradas (entrada ou saída, por projeto ou por usuário), novas chamadas de LLM nessa consulta serão rejeitadas.
- Todas as linhas restantes que dependem de chamadas de LLM encontram um erro de esgotamento de cota.
- O resultado da consulta depende do argumento
max_error_ratiose usado em funções comoAI.IF. Se a taxa de erros permanecer dentro do limite permitido, resultados parciais poderão ser retornados. Caso contrário, toda a consulta falhará. - As consultas subsequentes que tentarem usar funções de IA generativa vão falhar com
um erro
QuotaExceededaté que a cota diária seja redefinida.
Considerações importantes
- Cotas globais:as cotas definidas são globais. O uso de tokens é agregado em todas as regiões em que seu projeto opera, oferecendo um mecanismo unificado de controle de custos. Isso evita cobranças inesperadas pelo uso em diferentes regiões.
- Capacidade provisionada:se você estiver usando modelos da Vertex AI com capacidade provisionada, o faturamento não será baseado no uso de tokens. Defina essas cotas de tokens do BigQuery com um valor alto para evitar o bloqueio desnecessário das consultas.
A seguir
- Saiba mais sobre como otimizar os custos da função de IA.
- Leia uma visão geral da IA generativa no BigQuery.