Acerca de las TPU en Cloud de Confiance by S3NS

Las unidades de procesamiento tensorial (TPU) son los circuitos integrados específicos de la aplicación (ASIC) personalizados de Google que se usan para acelerar las cargas de trabajo de aprendizaje automático (AA) y de inteligencia artificial (IA). Ya sea que entrenes modelos base complejos durante semanas o ejecutes inferencias a gran escala, las TPU ofrecen recursos de procesamiento escalables y especializados optimizados para frameworks como JAX y PyTorch.

Las Cloud TPU están diseñadas para abordar las cargas de trabajo de IA más exigentes. Estos son los beneficios clave:

  • Optimizadas para cálculos de matrices: Las TPU están diseñadas específicamente con unidades de multiplicación de matrices (MXU) para ejecutar las operaciones de matrices masivas fundamentales para los algoritmos de AA con una eficiencia excepcional.

  • Memoria de alto ancho de banda (HBM): La memoria de alto ancho de banda en el chip te permite entrenar y entregar modelos más grandes, y usar tamaños de lotes más grandes de manera eficaz.

  • Escalabilidad masiva con porciones: Los chips de TPU se pueden conectar en grupos llamados porciones. Las porciones permiten que tus cargas de trabajo logren un escalamiento de hasta miles de chips de TPU para trabajos de entrenamiento masivos.

Cuándo conviene usar las TPU

Las TPU están optimizadas para cargas de trabajo específicas, como las siguientes:

  • Modelos dominados por cálculos de matrices
  • Modelos sin operaciones de PyTorch ni JAX personalizadas dentro del bucle de entrenamiento principal
  • Modelos que se entrenan por semanas o meses
  • Modelos grandes con tamaños de lotes eficaces grandes
  • Modelos con embeddings ultragrandes que son comunes en cargas de trabajo avanzadas de clasificación y recomendación

Las TPU no son adecuadas para las siguientes cargas de trabajo:

  • Programas de álgebra lineal que requieren ramificaciones frecuentes o contienen muchas operaciones algebraicas a nivel de los elementos
  • Las cargas de trabajo que requieren aritmética de alta precisión
  • Cargas de trabajo de entrenamiento de redes neuronales que contienen operaciones personalizadas en el bucle principal de entrenamiento

Opciones de aprovisionamiento en Cloud de Confiance by S3NS

Puedes acceder a las TPU y aprovisionarlas con los siguientes Cloud de Confiance by S3NS productos según tus necesidades operativas.

Compute Engine

Compute Engine te permite crear y administrar VMs o porciones de TPU individuales, lo que te brinda la capacidad de administrar el ciclo de vida completo de las VMs de TPU. Google recomienda que uses Compute Engine en lugar de la API heredada de Cloud TPU para aprovisionar tus recursos de TPU.

Para obtener más información, consulta Recursos de Cloud TPU en Compute Engine.

Google Kubernetes Engine

Google Kubernetes Engine (GKE) proporciona un entorno de Kubernetes completamente administrado y de múltiples usuarios para organizar cargas de trabajo de IA a gran escala. GKE admite la administración del ciclo de vida de los nodos y los grupos de nodos de TPU, incluida la creación, la configuración y la eliminación de VMs de TPU.

Para obtener más información, consulta Acerca de las TPU en GKE.

Cloud TPU

La API de Cloud TPU, incluidas Google Cloud CLI y las bibliotecas cliente de Cloud para Cloud TPU, ya no están en desarrollo. Para aprovisionar y administrar recursos de TPU, Google recomienda que uses Compute Engine o GKE, según tus necesidades de organización y carga de trabajo.

Para obtener más información, consulta Migra desde la API de Cloud TPU.

Versiones de TPU compatibles con Compute Engine

Compute Engine admite las siguientes versiones de TPU:

  • TPU7x (Ironwood)
  • TPU v6e (Trillium)
  • TPU v5p

Para obtener más información sobre cada versión de TPU, consulta Máquinas de TPU.

¿Qué sigue?