Solicita TPUs con reserva futura en el modo de calendario


En esta guía, se muestra cómo optimizar el aprovisionamiento de unidad de procesamiento tensorial (TPU) con la reserva futura en modo de calendario. La reserva futura en modo de calendario es un asesor y recomendador de calendario integrado que puede ayudarte a encontrar capacidad de TPU y planificar con anticipación. Puedes solicitar capacidad para una hora de inicio y una duración específicas, entre 1 y 90 días, y el recomendador te proporcionará fechas sugeridas.

Esta guía está dirigida a ingenieros de aprendizaje automático (AA), administradores y operadores de plataformas, y especialistas en datos y en IA que estén interesados en usar las capacidades de organización de contenedores de Kubernetes para ejecutar cargas de trabajo por lotes. Para obtener más información sobre los roles comunes y las tareas de ejemplo a los que hacemos referencia en el contenido de Trusted Cloud by S3NS , consulta Roles y tareas comunes de los usuarios de GKE.

Para obtener más información, consulta Acerca de las reservas futuras en el modo de calendario.

Casos de uso

La reserva futura en modo de calendario funciona mejor para las cargas de trabajo con solicitudes programadas, a corto plazo y de alta demanda, como el entrenamiento, o los modelos de inferencia por lotes que requieren alta disponibilidad en la hora de inicio solicitada.

Si tu carga de trabajo requiere recursos aprovisionados de forma dinámica según sea necesario, por hasta 7 días sin reservas a largo plazo ni administración compleja de cuotas, considera usar flex-start. Para obtener más información, consulta Acerca del aprovisionamiento de GPU y TPU con inicio flexible.

Antes de comenzar

Antes de comenzar, asegúrate de haber realizado las siguientes tareas:

  • Habilita la API de Google Kubernetes Engine.
  • Habilitar la API de Google Kubernetes Engine
  • Si quieres usar Google Cloud CLI para esta tarea, instala y, luego, inicializa gcloud CLI. Si ya instalaste gcloud CLI, ejecuta gcloud components update para obtener la versión más reciente.
  • Asegúrate de tener una de las siguientes opciones:

Solicita una reserva futura en el modo de calendario para las TPU

El proceso para solicitar TPU con reserva futura en modo calendario incluye los siguientes pasos:

  1. Asegúrate de tener suficiente cuota para los recursos que no forman parte de una reserva cuando se crean las VMs, como los discos o las direcciones IP. Las solicitudes de reserva futura en modo de calendario no requieren cuota de Compute Engine.
  2. Completa los pasos en cómo crear una solicitud en modo calendario. Estos pasos incluyen lo siguiente:
    1. Consulta la disponibilidad futura de las TPU.
    2. Crea y envía una solicitud de reserva futura en modo de calendario para las TPU.
    3. Espera a que Trusted Cloud by S3NS apruebe tu solicitud.
  3. Crea un grupo de nodo TPU que use tu reserva.

Crea un grupo de nodos

Esta sección solo se aplica a los clústeres de Standard.

Puedes usar tu reserva cuando crees grupos de nodos de porción de TPU de host único o de varios hosts. Por ejemplo, puedes crear un grupo de nodos de porción de TPU de host único con Google Cloud CLI.

gcloud container node-pools create NODE_POOL_NAME \
    --location=LOCATION \
    --cluster=CLUSTER_NAME \
    --node-locations=NODE_ZONES \
    --machine-type=MACHINE_TYPE \
    --reservation-affinity=specific \ This is required
    --reservation=RESERVATION

Reemplaza lo siguiente:

  • NODE_POOL_NAME: el nombre del grupo de nodos nuevo
  • LOCATION: El nombre de la zona en función de la versión de TPU que deseas usar. Para identificar una ubicación disponible, consulta Disponibilidad de TPU en GKE.
  • CLUSTER_NAME: el nombre del clúster
  • NODE_ZONES: La lista separada por comas de una o más zonas en las que GKE crea el grupo de nodos.
  • MACHINE_TYPE: Es el tipo de máquina que se usará para los nodos. Para obtener más información sobre los tipos de máquinas compatibles con TPU, usa la tabla en Elige la versión de TPU.
  • RESERVATION: Es el nombre de la reserva de calendario que se consumirá.

Para obtener una lista completa de todas las marcas que puedes especificar, consulta la referencia de gcloud container clusters create.

Después de crear un grupo de nodos con la reserva de calendario, puedes implementar tu carga de trabajo como cualquier otro grupo de nodo TPU. Por ejemplo, puedes crear un trabajo que especifique el grupo de nodo TPU que consume las TPU reservadas.

¿Qué sigue?