Criptografar dados da carga de trabalho da GPU em uso com Confidential GKE Nodes


Nesta página, mostramos como criptografar dados de carga de trabalho de GPU em uso executando as cargas de trabalho em nós confidenciais criptografados do Google Kubernetes Engine. Você também vai conhecer as limitações e considerações aplicáveis a cargas de trabalho de GPU executadas nesses nós criptografados.

Esta página é destinada a engenheiros e operadores de segurança que querem melhorar a segurança dos dados em cargas de trabalho aceleradas, como tarefas de IA/ML. Antes de ler esta página, você deve conhecer os seguintes conceitos:

Antes de começar

Antes de começar, verifique se você realizou as tarefas a seguir:

  • Ativar a API Google Kubernetes Engine.
  • Ativar a API Google Kubernetes Engine
  • Se você quiser usar a CLI do Google Cloud para essa tarefa, instale e, em seguida, inicialize a CLI gcloud. Se você instalou a gcloud CLI anteriormente, instale a versão mais recente executando gcloud components update.

Disponibilidade

Para usar os nós confidenciais do GKE e executar cargas de trabalho de GPU, você precisa atender a todas as seguintes condições:

  • Use um cluster do modo GKE Standard.
  • O cluster e os nós precisam executar a versão 1.32.2-gke.1297000 ou mais recente do GKE.
  • Os nós precisam estar em uma zona compatível com o Confidential Computing da NVIDIA. Para mais informações, consulte Ver zonas compatíveis.
  • Os nós precisam usar VMs spot, VMs preemptivas ou início flexível com provisionamento em fila.
  • Para usar o flex-start com provisionamento em fila, o cluster precisa executar a versão 1.32.2-gke.1652000 ou mais recente do GKE.
  • Os nós precisam usar apenas uma GPU NVIDIA H100 de 80 GB e o tipo de máquina a3-highgpu-1g.
  • Os nós precisam usar a tecnologia de computação confidencial Intel TDX.
  • É preciso ter cota para GPUs preemptivas H100 80 (compute.googleapis.com/preemptible_nvidia_h100_gpus) nos locais dos nós. Para mais informações sobre como gerenciar sua cota, consulte Ver e gerenciar cotas

Funções exigidas

Para receber as permissões necessárias para criar nós confidenciais do GKE, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto Trusted Cloud :

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Limitações

  • Os clusters no modo Autopilot não são compatíveis.
  • Recursos de compartilhamento de GPU, como compartilhamento de tempo ou GPUs de várias instâncias, não são compatíveis.

Ativar os Confidential GKE Nodes no modo Standard

É possível executar cargas de trabalho de GPU em nós confidenciais do GKE em clusters ou pools de nós do modo Standard. Os nós confidenciais do GKE precisam usar a tecnologia de computação confidencial Intel TDX.

Ativar os Confidential GKE Nodes em novos clusters Standard

Ao criar um cluster no modo Standard que usa nós confidenciais do GKE, especifique as seguintes configurações do cluster:

  • Local: uma região ou zona que oferece suporte à Computação confidencial da NVIDIA. Para mais informações, consulte Ver zonas compatíveis.
  • Tecnologia de computação confidencial: Intel TDX
  • Versão do cluster: 1.32.2-gke.1297000 ou mais recente

Para instruções, consulte Ativar os Confidential GKE Nodes em clusters Standard.

Ativar os Confidential GKE Nodes em novos pools de nós do Standard

É possível ativar os nós confidenciais do GKE em novos pools de nós se o cluster não tiver os nós confidenciais do GKE ativados no nível do cluster. O cluster precisa atender aos requisitos na seção Disponibilidade.

Para criar um pool de nós de GPU que usa nós confidenciais do GKE, selecione uma das seguintes opções:

Console

  1. Acessar os clusters do Kubernetes

  2. Clique no nome do cluster do modo Standard que você quer modificar.
  3. Clique em Adicionar pool de nós. A página Adicionar um pool de nós é aberta.
  4. No painel Detalhes do pool de nós, faça o seguinte:
    1. Selecione Especificar locais dos nós.
    2. Selecione apenas as zonas com suporte listadas na seção Disponibilidade.
    3. Verifique se a versão do plano de controle é 1.32.2-gke.1297000 ou mais recente.
  5. No menu de navegação, clique em Nós.
  6. No painel Configurar configurações do nó, faça o seguinte:
    1. Na seção Configuração da máquina, clique em GPUs.
    2. No menu Tipo de GPU, selecione NVIDIA H100 de 80 GB.
    3. No menu Número de GPUs, selecione 1.
    4. Confira se a opção Ativar compartilhamento de GPU não está selecionada.
    5. Na seção Instalação do driver da GPU, selecione Gerenciado pelo usuário.
    6. Na seção Tipo de máquina, verifique se o tipo de máquina é a3-highgpu-1g.
    7. Selecione Ativar nós em VMs do Spot.
  7. Quando estiver tudo pronto para criar o pool de nós, clique em Criar.

gcloud

É possível criar pools de nós de GPU que executam nós confidenciais do GKE em Spot VMs ou usando o flex-start com provisionamento em fila (pré-lançamento).

  • Crie um pool de nós de GPU que execute nós confidenciais do GKE em VMs Spot:

    gcloud container node-pools create NODE_POOL_NAME \
        --cluster=CLUSTER_NAME \
        --confidential-node-type=tdx --location=LOCATION \
        --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
        --spot --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled \
        --machine-type=a3-highgpu-1g
    

    Substitua:

    • NODE_POOL_NAME: um nome para o novo pool de nós.
    • CLUSTER_NAME: o nome do cluster atual.
    • LOCATION: o local do novo pool de nós. O local precisa ser compatível com o uso de GPUs em nós confidenciais do GKE.
    • NODE_LOCATION1,NODE_LOCATION2,...: uma lista separada por vírgulas de zonas em que os nós serão executados. Essas zonas precisam ser compatíveis com o uso da Computação confidencial da NVIDIA. Para mais informações, consulte Ver zonas compatíveis.
  • Crie um pool de nós de GPU que execute nós confidenciais do GKE usando flex-start com provisionamento em fila (prévia):

    gcloud container node-pools create NODE_POOL_NAME \
        --cluster=CLUSTER_NAME \
        --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
        --machine-type=a3-highgpu-1g --confidential-node-type=tdx \
        --location=LOCATION \
        --flex-start --enable-queued-provisioning \
        --enable-autoscaling --num-nodes=0 --total-max-nodes=TOTAL_MAX_NODES \
        --location-policy=ANY --reservation-affinity=none --no-enable-autorepair \
        --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled
    

    Substitua TOTAL_MAX_NODES pelo número máximo de nós que o pool de nós pode escalonar automaticamente.

    Para mais informações sobre as opções de configuração em flex-start com provisionamento em fila, consulte Executar uma carga de trabalho em grande escala com flex-start e provisionamento em fila.

Ativar os Confidential GKE Nodes em pools de nós do GKE Standard

É possível atualizar os pools de nós padrão atuais para usar o Flex-start se o cluster não tiver os nós confidenciais do GKE ativados no nível do cluster. Verifique se o cluster e o pool de nós atual atendem aos requisitos listados na seção Disponibilidade.

Para atualizar seus pools de nós e usar a tecnologia de computação confidencial Intel TDX, consulte Atualizar um pool de nós atual.

Instalar drivers de GPU compatíveis com os Confidential GKE Nodes

Depois de ativar os Confidential GKE Nodes no pool de nós de GPU, é necessário instalar drivers que ofereçam suporte à execução de cargas de trabalho de GPU nesses nós.

Essa mudança exige a recriação dos nós, o que pode causar interrupções nas cargas de trabalho em execução. Para mais detalhes sobre essa mudança específica, encontre a linha correspondente na tabela Alterações manuais que recriam os nós usando uma estratégia de upgrade de nós sem respeitar as políticas de manutenção. Para saber mais sobre atualizações de nós, consulte Planejar interrupções de atualização de nós.

Para instruções, consulte a guia "COS" em Instalar manualmente os drivers de GPU NVIDIA.

Resolver problemas

Para informações sobre solução de problemas, consulte Resolver problemas de GPUs no GKE.

A seguir