Sobre TPUs no Cloud de Confiance by S3NS

As unidades de processamento de tensor (TPUs) são circuitos integrados de aplicação específica (ASICs) desenvolvidos especialmente pelo Google. Elas são projetadas para acelerar as cargas de trabalho de machine learning (ML) e inteligência artificial (IA). Se você estiver treinando modelos de base complexos por semanas ou executando inferências em grande escala, as TPUs oferecem recursos de computação escalonáveis e especializados otimizados para frameworks como JAX e PyTorch.

As Cloud TPUs são projetadas para lidar com as cargas de trabalho de IA mais exigentes. Os principais benefícios incluem:

  • Otimização para cálculos matriciais: as TPUs são projetadas especificamente com unidades de multiplicação de matrizes (MXUs, na sigla em inglês) para executar as operações matriciais massivas fundamentais para algoritmos de ML com eficiência excepcional.

  • Memória de alta largura de banda (HBM): a memória de alta largura de banda no chip permite treinar e disponibilizar modelos maiores e utilizar tamanhos de lote maiores.

  • Escalabilidade massiva com fatias: os chips de TPU podem ser conectados em grupos chamados fatias. As fatias permitem que suas cargas de trabalho alcancem o escalonamento de até milhares de chips de TPU para trabalhos de treinamento massivos.

Quando usar TPUs

As TPUs são otimizadas para cargas de trabalho específicas, como as seguintes:

  • modelos com preponderância de computações matriciais
  • Modelos sem operações personalizadas do PyTorch/JAX no loop de treinamento principal.
  • Modelos com treinamento de semanas ou meses.
  • Modelos grandes com tamanhos de lote efetivo grandes.
  • Modelos com embeddings ultragrandes, comuns em cargas de trabalho avançadas de classificação e recomendação.

As TPUs não são adequadas para as seguintes cargas de trabalho:

  • Programas de álgebra linear que exigem ramificação frequente ou contêm muitas operações algébricas de elemento.
  • Cargas de trabalho que exigem aritmética de alta precisão.
  • Cargas de trabalho de redes neurais com operações personalizadas no loop de treinamento principal.

Opções de provisionamento em Cloud de Confiance by S3NS

É possível acessar e provisionar TPUs usando os seguintes Cloud de Confiance by S3NS produtos dependendo das suas necessidades operacionais.

Compute Engine

O Compute Engine permite criar e gerenciar VMs ou fatias de TPU individuais, oferecendo a capacidade de gerenciamento completo do ciclo de vida das VMs de TPU. O Google recomenda que você use o Compute Engine em vez da API Cloud TPU legada para provisionar seus recursos de TPU.

Para saber mais, consulte Recursos da Cloud TPU no Compute Engine.

Google Kubernetes Engine

O Google Kubernetes Engine (GKE) oferece um ambiente Kubernetes multitenant totalmente gerenciado para orquestrar cargas de trabalho de IA em grande escala. O GKE oferece suporte ao gerenciamento do ciclo de vida de nós da TPU e do pool de nós, incluindo criação, configuração e exclusão de VMs de TPU.

Para saber mais, consulte Sobre as TPUs no GKE.

Cloud TPU

A API Cloud TPU, incluindo a Google Cloud CLI e as bibliotecas de cliente do Cloud para Cloud TPU, não está mais em desenvolvimento. Para provisionar e gerenciar recursos de TPU, o Google recomenda que você use o Compute Engine ou o GKE, com base nas suas necessidades de orquestração e carga de trabalho.

Para mais informações, consulte Migrar da API Cloud TPU.

Versões de TPU com suporte no Compute Engine

O Compute Engine oferece suporte às seguintes versões de TPU:

  • TPU7x (Ironwood)
  • TPU v6e (Trillium)
  • TPU v5p

Para mais informações sobre cada versão de TPU, consulte Máquinas de TPU.

A seguir