Controla los costos con cuotas de tokens

En este documento, se describe cómo puedes definir y administrar límites diarios en la cantidad de tokens de entrada y salida que consumen las funciones de IA generativa.

Las funciones de IA generativa de BigQuery usan modelos de lenguaje grandes (LLM) para realizar análisis avanzados en tus consultas de SQL. Dado que el uso de LLM suele facturarse según la cantidad de tokens procesados, BigQuery proporciona cuotas de tokens para ayudarte a administrar y controlar los costos asociados con el uso de estas funciones.

Las cuotas de tokens se aplican a las funciones de SQL de BigQuery diseñadas para todas las tareas de inferencia de IA generativa que usan LLM de Gemini, como las funciones AI.CLASSIFY y AI.GENERATE.

Detalles de la cuota

BigQuery proporciona las siguientes cuotas diarias según el uso de tokens de LLM. El uso de tokens se correlaciona directamente con la facturación de Vertex AI para las funciones de IA generativa de BigQuery que usan modelos de Gemini. Estas cuotas se registran de forma global en todas las regiones.

Estas cuotas de tokens rigen la cantidad de tokens de entrada y salida que procesan los LLMs para las funciones de IA generativa:

  • Tokens de entrada: Son los tokens que se envían al modelo para su procesamiento. Esto incluye los tokens en el texto de la instrucción y cualquier otro dato que se proporcione al modelo como entrada.
  • Tokens de salida: Son los tokens que genera el modelo en su respuesta. Esto incluye los tokens en el texto generado (tokens candidatos) y los tokens generados durante los pasos de razonamiento interno (tokens de pensamiento).
Nombre de la cuota Métrica Permiso Valor predeterminado
GenAiInputTokensPerDay Tokens de entrada que usa el LLM Por día y por proyecto 200,000,000,000
GenAiInputTokensPerUserPerDay Tokens de entrada que usa el LLM Por día y por usuario 40,000,000,000
GenAiOutputTokensPerDay Tokens de salida y pensamiento que usa el LLM Por día y por proyecto 20,000,000,000
GenAiOutputTokensPerUserPerDay Tokens de salida y pensamiento que usa el LLM Por día y por usuario 4,000,000,000

Estas cuotas se registran en incrementos de millones de tokens. Si bien puedes establecer límites precisos, es posible que los valores inferiores a unos pocos millones de tokens no se reflejen con total precisión debido a la naturaleza de los informes y la agregación de tokens.

Los tokens almacenados en caché no se incluyen en las cuotas.

Administrar las cuotas

Según el uso que hagas de los recursos, es posible que desees ver o ajustar los valores de cuota de tokens. Puedes usar la consola de Cloud de Confiance para realizar las siguientes tareas:

  1. En la consola de Cloud de Confiance , ve a la página IAM y administración > Cuotas y límites del sistema.

    Ir a Cuotas y límites del sistema

  2. Para filtrar las cuotas, ingresa Service: BigQuery API.

  3. Busca una cuota específica en la lista (por ejemplo, busca GenAiInputTokensPerDay).

  4. Haz clic en Editar.

  5. Para aumentar o disminuir la cuota en el panel Cambios de cuota, ingresa un valor nuevo.

  6. Haz clic en Enviar solicitud.

Comportamiento de la aplicación de cuotas

BigQuery supervisa el consumo de tokens en varias etapas de la ejecución de la consulta:

  • Verificación previa a la ejecución: BigQuery verifica la cuota de tokens disponible antes de ejecutar una consulta que contiene funciones de IA generativa. Si la cuota pertinente (por ejemplo, los tokens de entrada diarios del proyecto) ya se agotó, se rechaza la búsqueda con un error QuotaExceeded.
  • Durante la ejecución: Si una búsqueda se está ejecutando y consume tokens de tal manera que agota cualquiera de las cuotas configuradas (de entrada o salida, por proyecto o por usuario), se rechazan las nuevas llamadas al LLM dentro de esa búsqueda.
    • Las filas restantes que dependen de las llamadas al LLM generan un error de agotamiento de la cuota.
    • El resultado de la consulta depende del argumento max_error_ratio si se usa en funciones como AI.IF. Si la proporción de errores permanece dentro del límite permitido, es posible que se muestren resultados parciales. De lo contrario, fallará toda la búsqueda.
    • Las consultas posteriores que intenten usar funciones potenciadas por IA generativa fallarán con un error QuotaExceeded hasta que se restablezca la cuota diaria.

Consideraciones importantes

  • Cuotas globales: Las cuotas definidas son globales. El uso de tokens se agrega en todas las regiones en las que opera tu proyecto, lo que proporciona un mecanismo unificado de control de costos. Esto evita cargos inesperados por el uso en diferentes regiones.
  • Capacidad de procesamiento aprovisionada: Si usas modelos de Vertex AI con capacidad de procesamiento aprovisionada, la facturación no se basa en el uso de tokens. Debes establecer estas cuotas de tokens de BigQuery en un valor alto para evitar bloquear innecesariamente tus consultas.

¿Qué sigue?