Sobre instâncias de GPU

Este documento descreve os recursos e as limitações das instâncias do Compute Engine que têm GPUs anexadas.

Para acelerar cargas de trabalho específicas no Compute Engine, implante uma instância otimizada para aceleradores com GPUs anexadas ou anexe GPUs a uma instância de uso geral N1. Para a maioria das cargas de trabalho, o Compute Engine fornece GPUs para as instâncias no modo de passagem, que oferece às instâncias controle direto sobre as GPUs e a memória delas. No entanto, para cargas de trabalho com mais gráficos e executadas em GPUs G4, G2 ou N1, é possível usar estações de trabalho virtuais (vWS) NVIDIA RTX. Nas instâncias G4, a vWS NVIDIA RTX permite o uso de tipos de máquina de GPU fracionária. Com esses tipos de máquina, uma única GPU física pode ser compartilhada por várias estações de trabalho virtuais atribuindo uma GPU virtual (vGPU) a cada instância. As instâncias G2 e N1 oferecem suporte à vWS, mas não a tipos de máquina de vGPU fracionária.

Também é possível usar alguns tipos de máquina de GPU no Hipercomputador de IA. O Hipercomputador de IA é um sistema de supercomputação otimizado para oferece suporte às suas cargas de trabalho de inteligência artificial (IA) e machine learning (ML). Essa opção é recomendada para criar uma infraestrutura densamente alocada e otimizada para desempenho que tenha integrações para o Google Kubernetes Engine (GKE) e escalonadores do Slurm.

Tipos de máquina compatíveis

O Compute Engine oferece diferentes tipos de máquina para oferecer suporte às suas várias cargas de trabalho.

Alguns tipos de máquina oferecem suporte a estações de trabalho virtuais (vWS) NVIDIA RTX. Ao criar uma instância que usa a estação de trabalho virtual NVIDIA RTX, o Compute Engine adiciona automaticamente uma licença de vWS. Para informações sobre preços de estações de trabalho virtuais, consulte a página de preços da GPU.

Tipos de máquina de GPU
Cargas de trabalho de IA e ML Gráficos e visualização Outras cargas de trabalho de GPU
Os tipos de máquina da série A otimizados para aceleradores são projetados para cargas de trabalho de computação de alto desempenho (HPC), inteligência artificial (IA) e machine learning (ML).

A série A de geração mais recente é ideal para pré-treinamento e ajuste fino modelos de fundação que envolvem grandes clusters de aceleradores, enquanto a série A2 pode ser usada para treinar modelos menores e inferência de host único.

Para esses tipos de máquina, o modelo de GPU é anexado automaticamente à instância.

Os tipos de máquina da série G otimizados para aceleradores são projetados para cargas de trabalho como cargas de trabalho de simulação do NVIDIA Omniverse, aplicativos com muitos gráficos, transcodificação de vídeo e desktops virtuais. Esses tipos de máquina oferecem suporte a estações de trabalho virtuais (vWS) NVIDIA RTX.

A série G também pode ser usada para treinar modelos menores e para inferência de host único.

Para esses tipos de máquina, o modelo de GPU é anexado automaticamente à instância.

Para tipos de máquina de uso geral N1, exceto o núcleo compartilhado N1 (f1-micro e g1-small), é possível anexar um conjunto selecionado de modelos de GPU. Alguns desses modelos de GPU também oferecem suporte a estações de trabalho virtuais (vWS) NVIDIA RTX.

  • A4X Max (NVIDIA GB300 Ultra Superchips)
    (nvidia-gb300)
  • A4X (NVIDIA GB200 Superchips)
    (nvidia-gb200)
  • A4 (NVIDIA B200)
    (nvidia-b200)
  • A3 Ultra (NVIDIA H200)
    (nvidia-h200-141gb)
  • A3 Mega (NVIDIA H100)
    (nvidia-h100-mega-80gb)
  • A3 High (NVIDIA H100)
    (nvidia-h100-80gb)
  • A3 Edge (NVIDIA H100)
    (nvidia-h100-80gb)
  • A2 Ultra (NVIDIA A100 80GB)
    (nvidia-a100-80gb)
  • A2 Standard (NVIDIA A100)
    (nvidia-a100-40gb)
  • G4 (NVIDIA RTX PRO 6000)
    (nvidia-rtx-pro-6000)
    (nvidia-rtx-pro-6000-vws)
  • G2 (NVIDIA L4)
    (nvidia-l4)
    (nvidia-l4-vws)
Os modelos de GPU a seguir podem ser anexados a tipos de máquina de uso geral N1:
  • NVIDIA T4
    (nvidia-tesla-t4)
    (nvidia-tesla-t4-vws)
  • NVIDIA P4
    (nvidia-tesla-p4)
    (nvidia-tesla-p4-vws)
  • NVIDIA V100
    (nvidia-tesla-v100)
  • NVIDIA P100
    (nvidia-tesla-p100)
    (nvidia-tesla-p100-vws)

GPUs em VMs do Spot

É possível adicionar GPUs às VMs do Spot a um preço mais baixo para as GPUs. As GPUs anexadas às VMs do Spot funcionam como GPUs normais, mas persistem apenas durante a vida útil da VM. As VMs do Spot com GPUs seguem o mesmo processo de preempção de todas as VMs do Spot.

Durante eventos de manutenção, as VMs do Spot com GPUs são interrompidas por padrão e não podem ser reiniciadas automaticamente. Para recriar suas VMs após a interrupção forçada, use um grupo de instâncias gerenciadas. Os grupos gerenciados de instâncias recriarão as instâncias de VM se os recursos de vCPU, memória e GPU estiverem disponíveis.

Se você quiser um aviso antes que as VMs sejam interrompidas ou se quiser configurá-las para reiniciar automaticamente após um evento de manutenção, use VMs padrão com uma GPU. Para VMs padrão com GPUs, o Compute Engine fornece notificação com uma hora de antecedência da preempção.

O Compute Engine não cobrará pelas GPUs se as instâncias forem interrompidas no primeiro minuto de execução.

Para saber como criar VMs do Spot com GPUs anexadas, leia Criar uma VM com GPUs anexadas e Como criar VMs do Spot. Por exemplo, consulte Criar uma instância A3 Ultra ou A4 usando VMs do Spot.

GPUs em instâncias com tempos de execução predefinidos

As instâncias que usam o modelo de provisionamento padrão normalmente não podem usar cotas de alocação preemptivas. As cotas preemptivas são para cargas de trabalho temporárias e geralmente estão mais disponíveis. Se o projeto não tiver uma cota preemptiva e você nunca a tiver solicitado, todas as instâncias do projeto vão consumir cotas de alocação padrão.

Se você solicitar uma cota de alocação preemptiva, as instâncias que usam o modelo de provisionamento padrão precisarão atender a todos os critérios a seguir para consumir a cota de alocação preemptiva:

Ao consumir a alocação preemptiva para cargas de trabalho de GPU com limite de tempo, você pode se beneficiar do tempo de execução ininterrupto e da alta disponibilidade da cota de alocação preemptiva. Para mais informações, consulte Cotas preemptivas.

GPUs e VM confidencial

É possível usar uma GPU com uma instância de VM confidencial que usa o Intel TDX na série de máquinas A3. Para mais informações, consulte Configurações compatíveis com VMs confidenciais . Para saber como criar uma instância de VM confidencial com GPUs, consulte Criar uma instância de VM confidencial com GPU.

GPUs e armazenamento em blocos

Ao criar uma instância usando um tipo de máquina de GPU, é possível adicionar armazenamento em blocos permanente ou temporário à instância. Para armazenar dados não temporários, use o armazenamento em blocos persistente, como Hyperdisk ou Persistent Disk porque esses discos são independentes do ciclo de vida da instância. Os dados no armazenamento permanente podem ser mantidos mesmo depois de você excluir a instância.

Para armazenamento temporário ou caches temporários, use o armazenamento em blocos temporário adicionando discos SSD locais ao criar a instância.

Armazenamento em blocos com Persistent Disk e Hyperdisks

É possível anexar o Persistent Disk e selecionar Hyperdisk volumes do Hyperdisk a instâncias ativadas para GPU.

Para cargas de trabalho de machine learning (ML) e veiculação, use volumes do Hyperdisk ML, que oferecem alta capacidade de processamento e tempos de carregamento de dados mais curtos. O Hyperdisk ML é uma opção mais econômica para cargas de trabalho de ML, porque oferece tempos de inatividade da GPU mais baixos.

Os volumes do Hyperdisk ML oferecem suporte a vários anexos de leitura somente, para que você possa anexar o mesmo disco a várias instâncias, a cada instância acesso aos mesmos dados.

Para mais informações sobre os tipos de disco compatíveis com as séries de máquinas que oferecem suporte a GPUs, consulte as páginas de séries de máquinas N1 e otimizadas para aceleradores.

Discos SSD locais

Os discos SSD locais oferecem armazenamento temporário e rápido para armazenamento em cache, processamento de dados ou outros dados temporários. Os discos SSD locais oferecem armazenamento rápido porque estão fisicamente anexados ao servidor que hospeda a instância. Os discos SSD locais oferecem armazenamento temporário porque a instância perde dados se for reiniciada.

Evite armazenar dados com requisitos de persistência fortes em discos SSD locais. Para armazenar dados não temporários, use o armazenamento permanente em vez disso.

Se você interromper manualmente uma instância com uma GPU, poderá preservar os dados do SSD local, com algumas restrições. Consulte a documentação do SSD local para mais detalhes.

Para saber se o SSD local é compatível com os tipos de GPU, consulte Disponibilidade de SSD local.

GPUs e manutenção do host

O Compute Engine sempre interrompe instâncias com GPUs anexadas quando realiza eventos de manutenção no servidor host. Se a instância tiver discos SSD locais anexados, ela vai perder os dados do SSD local após a interrupção.

Para mais informações sobre como lidar com eventos de manutenção do host da GPU, consulte este link.

Reservar capacidade de GPU

As reservas oferecem alta garantia de capacidade para recursos específicos da zona, incluindo GPUs. É possível usar reservas para garantir que você tenha GPUs disponíveis quando precisar delas para aplicativos com uso intensivo de desempenho. Para conhecer os diferentes métodos de reserva de recursos específicos da zona no Compute Engine, consulte Escolher um tipo de reserva.

As reservas também são necessárias quando você quer receber descontos por uso contínuo (CUDs) para suas GPUs.

Preços do GPU

Se você solicitar que o Compute Engine provisione GPUs usando o modelo de provisionamento spot, início flexível ou vinculado à reserva, você receberá as GPUs com preços com desconto, dependendo do tipo de GPU. Também é possível receber descontos por uso contínuo ou descontos por uso prolongado (somente com VMs N1) para o uso da GPU.

Para preços por hora e mensais para GPUs, consulte página de preços de GPU.

Descontos por compromisso de uso para GPUs

Os compromissos baseados em recursos oferecem grandes descontos em recursos do Compute Engine em troca do compromisso de usá-los em uma região específica por pelo menos um ano. Normalmente, você compra compromissos para recursos como vCPUs, memória, GPUs e discos SSD locais para uso com uma série de máquinas específica. Ao utilizar seus recursos, você recebe descontos para usar recursos qualificados. Para saber mais sobre esses descontos, consulte Descontos por compromisso de uso com base em recursos.

Para comprar um compromisso com GPUs, também é necessário reservar as GPUs e anexar as reservas ao compromisso. Para mais informações sobre como anexar reservas a compromissos, consulte Anexar reservas a compromissos baseados em recursos.

Descontos por uso prolongado para GPUs

As instâncias que usam tipos de máquina N1 com GPUs anexadas recebem descontos por uso prolongado (SUDs), semelhantes às vCPUs. Quando você seleciona uma GPU para uma estação de trabalho virtual, o Compute Engine adiciona automaticamente uma licença de estação de trabalho virtual NVIDIA RTX à instância.

Restrições e limitações da GPU

Para instâncias com GPUs anexadas, as seguintes restrições e limitações são aplicáveis:

  • Somente os tipos de máquina otimizados para aceleradores (A4X Max, A4X, A4, A3, A2, G4 e G2) e de uso geral N1 oferecem suporte a GPUs.

  • Para proteger os usuários e sistemas do Compute Engine, novos projetos têm uma cota global de GPU que limita o número total de GPUs que podem ser criadas em qualquer zona compatível. Quando você solicita uma cota de GPU, precisa pedir uma cota para os modelos de GPU que você quer criar em cada região e outra cota global para o número total de GPUs de todos os tipos em todas as zonas.

  • As instâncias com uma ou mais GPUs têm um número máximo de vCPUs para cada GPU que é adicionada à instância. Para ver os intervalos de memória e de vCPU disponíveis para diferentes configurações de GPU, consulte a lista de GPUs.

  • O funcionamento correto das GPUs depende de drivers de dispositivos. As GPUs NVIDIA em execução no Compute Engine precisam usar uma versão mínima do driver. Para saber mais sobre as versões do driver, consulte Versões necessárias do driver NVIDIA.

  • O SLA do Compute Engine cobre instâncias com um modelo de GPU anexado somente se esse modelo estiver geralmente disponível.

    Para regiões que têm várias zonas, o SLA do Compute Engine cobre a instância somente se o modelo de GPU estiver disponível em mais de uma zona nessa região. Para modelos de GPU por região, consulte Locais de GPU.

  • O Compute Engine oferece suporte a um usuário simultâneo por GPU ou vGPU.

  • Consulte também as limitações de cada tipo de máquina com GPUs anexadas.

A seguir