Modelos de provisionamento de instâncias do Compute Engine

Ao criar uma instância do Compute Engine, você precisa definir o método, chamado modelo de provisionamento, que quer usar para receber os recursos solicitados. Cada modelo de provisionamento determina a disponibilidade, a vida útil e o preço das instâncias de computação.

Este documento explica os diferentes modelos de provisionamento que podem ser especificados ao criar instâncias de computação. Ao entender esses modelos, você pode escolher a melhor opção para sua carga de trabalho.

Modelos de provisionamento disponíveis

Ao criar uma instância de computação, você pode especificar um dos seguintes modelos de provisionamento. Se você não especificar um modelo de provisionamento, o Compute Engine usará o modelo de provisionamento padrão por padrão.

  • Padrão

  • Spot

  • Início flexível

  • Vinculada à reserva

A tabela a seguir ajuda a comparar os casos de uso e os preços de cada modelo de provisionamento:

Padrão Spot Início flexível Vinculada à reserva
Resumo
  • Com base na disponibilidade de recursos, você pode criar instâncias de computação imediatamente.
  • Você pode controlar quando interromper ou excluir instâncias de computação.
  • Com base na disponibilidade de recursos, você pode criar instâncias de computação imediatamente.
  • Você pode controlar quando interromper ou excluir instâncias de computação. No entanto, você também permite que o Compute Engine interrompa ou exclua instâncias de computação a qualquer momento para recuperar a capacidade.
  • Com base na disponibilidade de recursos, você pode criar instâncias de computação dentro de um tempo de espera especificado. Para uma VM flex-start independente, você pode especificar um tempo de espera de até duas horas. Para uma solicitação de redimensionamento do MIG, o tempo de espera é indefinido.
  • Você pode controlar quando interromper ou excluir instâncias de computação. No entanto, não é possível suspender ou recriar instâncias. As instâncias de computação são executadas por um mínimo de 10 minutos e um máximo de sete dias. Quando as instâncias de computação atingem o final da duração da execução, o Compute Engine as interrompe ou exclui com base na ação de encerramento.
  • Você pode solicitar a reserva de capacidade em uma data futura para criar instâncias de computação. Se o Google Cloud aprovar sua solicitação, o Compute Engine vai criar uma reserva. Cloud de Confiance by S3NS No início do período de reserva, você pode consumir a reserva criando instâncias de computação que correspondam a ela.
  • Durante o período de reserva aprovado, você pode interromper, reiniciar, excluir e recriar instâncias de computação para consumir a reserva conforme necessário. Quando o período de reserva termina, o Compute Engine exclui a reserva e interrompe ou exclui todas as instâncias de computação que consomem a reserva com base na ação de encerramento.
Casos de uso

Ideal para cargas de trabalho que exigem estabilidade e operação contínua, como as seguintes:

  • Servidores da Web
  • Bancos de dados
  • Aplicativos empresariais
  • Desenvolvimento e teste

Ideal para cargas de trabalho que podem tolerar interrupções, como as seguintes:

  • Processamento em lote
  • Computação de alto desempenho (HPC)
  • Integração e implantação contínuas (CI/CD)
  • Análise de dados
  • Codificação de mídia
  • Inferência on-line

Cargas de trabalho que exigem estabilidade e precisam ser executadas por no máximo sete dias, como as seguintes:

  • Pré-treinamento de modelos pequenos
  • Ajuste fino de modelos
  • Simulação de HPC
  • Inferência em lote

Ideal para cargas de trabalho que exigem estabilidade e um tempo de execução específico, como as seguintes:

  • Para cargas de trabalho que duram até 90 dias:

    • Jobs de pré-treinamento de modelos
    • Jobs de ajuste fino de modelos
    • Cargas de trabalho de simulação de HPC
    • Aumentos esperados de curto prazo nas cargas de trabalho de inferência
  • Para cargas de trabalho com mais de 90 dias:

    • Cargas de trabalho de treinamento
    • Cargas de trabalho de inferência
Alocação de recursos Melhor esforço. O Compute Engine coloca fisicamente recursos próximos uns dos outros com base no melhor esforço. Para controlar o posicionamento, você pode usar políticas de posicionamento. Melhor esforço. O Compute Engine coloca fisicamente recursos próximos uns dos outros com base no melhor esforço. Para controlar o posicionamento, você pode usar políticas de posicionamento.

A alocação de recursos varia de acordo com a forma como você cria instâncias de computação:

  • Melhor esforço. Se você criar VMs de início flexível independentes o Compute Engine vai colocar fisicamente os recursos próximos uns dos outros com base no melhor esforço Para controlar o posicionamento, você pode usar políticas de posicionamento.
  • Dense. Se você criar VMs de início flexível usando solicitações de redimensionamento do MIG, o Compute Engine vai colocar fisicamente os recursos em hosts fortemente acoplados conectados por uma estrutura de rede de alta velocidade para minimizar a latência da rede.
Dense. O Compute Engine coloca fisicamente os recursos em hosts fortemente acoplados conectados por uma estrutura de rede de alta velocidade para minimizar a latência da rede.
Preços
  • Você incorre em preços padrão para instâncias de computação. Consulte Preços de instâncias de VM.
  • Você incorre em cobranças com base no método usado para criar instâncias de computação:

    • Se você criar instâncias de computação imediatamente, vai pagar conforme o uso (PAYG).
    • Se você criar instâncias de computação usando uma reserva sob demanda ou uma reserva criada automaticamente para uma reserva futura, será cobrado até que a reserva exista. Para mais informações, consulte Faturamento de reservas.
  • Você recebe descontos de até 91% em muitos tipos de máquina, GPUs, TPUs e discos SSD locais. Para mais informações, consulte Preços de VMs spot.
  • Você paga conforme o uso.
  • Com base na série de máquinas que as instâncias de computação usam, você recebe um desconto da seguinte maneira:

    • Para as séries de máquinas A4, A3 e A2, você recebe um desconto de 53% em vCPUs, memória e GPUs.
    • Para a série de máquinas H4D, você recebe um desconto de 25% em vCPUs e memória.
    Outras séries de máquinas compatíveis não são qualificadas para descontos. Para mais informações, consulte Preços do Programador dinâmico de cargas de trabalho (DWS).
  • Você paga conforme o uso.
Quota Ao criar uma instância de computação, a cota padrão é consumida. Ao criar uma VM spot, cota preemptiva é consumida. Se o projeto não tiver uma cota preemptiva, a cota padrão será consumida. Cloud de Confiance Os créditos do nível sem custo financeiro não se aplicam às VMs spot. Ao criar uma VM flex-start, a cota preemptiva é consumida. Se o projeto não tiver uma cota preemptiva, a cota padrão será consumida.

O consumo de cota varia de acordo com o método usado para reservar recursos:

  • Reservas futuras com Hipercomputador de IA ou clusters de HPC: o Google gerencia a cota dos recursos reservados. Não é necessário solicitar a cota manualmente. No horário de início do horário da reserva futura aprovada, o Google aumenta automaticamente a cota se o projeto não tiver.
  • Reservas futuras no modo de calendário: para reservar tipos de máquina H4D, cota de CPU é consumida. Para reservar tipos de máquina de GPU ou TPU, cota não é necessária.

Disponibilidade e vida útil da instância de computação

A tabela a seguir mostra a disponibilidade e a vida útil da instância de computação para cada modelo de provisionamento:

Padrão Spot Início flexível Vinculada à reserva
Pré-requisitos de criação Não há pré-requisitos de criação. Não há pré-requisitos de criação. Não há pré-requisitos de criação.

Para criar instâncias de computação, primeiro é necessário reservar capacidade usando um dos seguintes métodos:

Na data e hora de entrega escolhidas, o Compute Engine provisiona a capacidade solicitada. Em seguida, você pode consumir a capacidade criando instâncias de computação.

Série de máquinas compatível Você pode usar qualquer série de máquinas, exceto A4X Max, A4X, A4 e A3 Ultra. Você pode usar qualquer série de máquinas, exceto instâncias A4X e instâncias bare metal (A4X Max, C4D, C4, C3, X4 e Z3).

Só é possível usar as seguintes séries de máquinas:

Com base na forma como você reserva capacidade para criar VMs, só é possível usar as seguintes séries de máquinas:

Disponibilidade da instância de computação Você pode criar instâncias de computação a qualquer momento, desde que os recursos solicitados estejam disponíveis. Você pode criar instâncias de computação a qualquer momento, desde que os recursos solicitados estejam disponíveis.

Você pode criar instâncias de computação da seguinte maneira:

O Compute Engine usa o DWS para programar o provisionamento da capacidade solicitada com base na disponibilidade de recursos. O DWS ajuda você a receber recursos de alta demanda, como GPUs.

Só é possível criar instâncias de computação depois de reservar capacidade para uma data futura. Na data solicitada, o Compute Engine entrega a capacidade solicitada, que pode ser usada para criar instâncias de computação. Se você reservar recursos usando reservas futuras no modo de calendário, o Compute Engine vai usar o DWS para provisionar a capacidade solicitada. O DWS ajuda você a receber recursos de alta demanda, como GPUs.
Garantia de capacidade Com base no método de criação. A garantia de capacidade varia de acordo com o método usado para criar instâncias de computação da seguinte maneira:
  • Se você criar instâncias de computação imediatamente, então o Compute Engine vai fazer o possível para provisionar a capacidade solicitada.
  • Se você criar instâncias de computação consumindo uma reserva imediata ou uma reserva criada automaticamente para uma reserva adiantada, terá uma garantia muito alta de que o Compute Engine provisionará a capacidade solicitada se a reserva tiver capacidade reservada disponível.
Melhor esforço. Ao criar VMs spot, o Compute Engine faz o possível para provisionar a capacidade solicitada. Melhor esforço. Ao criar uma solicitação de redimensionamento do MIG, o Compute Engine faz o possível para programar o provisionamento da capacidade solicitada. Muito alta. Se o Google Cloud aprovar sua solicitação de reserva, você terá uma garantia muito alta de que o Compute Engine provisionará a capacidade reservada na data e hora de entrega escolhidas. Cloud de Confiance Você tem acesso exclusivo à capacidade reservada durante o período de reserva.
Vida útil da instância de computação Você pode controlar quando interromper ou excluir uma instância de computação. No entanto, se o tipo de máquina usado pela instância de computação não oferecer suporte à migração em tempo real, o Compute Engine vai interromper a instância de computação durante eventos de manutenção do host.

Você pode controlar quando interromper ou excluir uma instância de computação, exceto nos seguintes casos:

  • O Compute Engine interrompe ou exclui a instância de computação para recuperar a capacidade. Esse processo é chamado de preempção.
  • Se o tipo de máquina usado pela instância de computação não oferecer suporte à migração em tempo real, o Compute Engine vai interromper a instância de computação durante eventos de manutenção do host.

Antes que uma instância de computação atinja o final da duração da execução, você pode fazer o seguinte:

  • Interromper a instância de computação: você pode interromper a instância de computação a qualquer momento somente se ela tiver sido criada como uma instância de computação independente.
  • Excluir a instância de computação: você pode excluir a instância de computação a qualquer momento.

Quando uma instância de computação atinge o final da duração da execução, o Compute Engine a exclui.

Você pode controlar quando interromper ou excluir uma instância de computação, exceto nos seguintes casos:

  • O Compute Engine interrompe a instância de computação durante eventos de manutenção do host.
  • A reserva criada automaticamente para provisionar a capacidade solicitada atinge o final do período de reserva comprometido Nesse momento, o Compute Engine exclui a reserva e interrompe ou exclui todas as instâncias de computação que consomem a reserva com base na ação de encerramento especificada na configuração.

A seguir