Introdução às cargas de trabalho de IA/ML no GKE

Esta página oferece uma visão geral conceitual do Google Kubernetes Engine (GKE) para cargas de trabalho de IA/ML. O GKE é uma implementação gerenciada pelo Google da plataforma de orquestração de contêineres de código aberto do Kubernetes.

O Google Kubernetes Engine oferece uma plataforma escalonável, flexível e econômica para executar todas as suas cargas de trabalho conteinerizadas, incluindo aplicativos de inteligência artificial e machine learning (IA/ML). Se você estiver treinando modelos de base grandes, disponibilizando solicitações de inferência em escala ou criando uma plataforma de IA abrangente, o GKE oferece o controle e o desempenho necessários.

Esta página é destinada a especialistas em dados e IA, arquitetos de nuvem, operadores e desenvolvedores que procuram uma solução escalonável, automatizada e gerenciada do Kubernetes para executar cargas de trabalho de IA/ML. Para saber mais sobre as funções comuns, consulte Funções e tarefas de usuário comuns do GKE.

Começar a usar cargas de trabalho de IA/ML no GKE

Você pode começar a explorar o GKE em minutos usando o nível sem custo financeiro do GKE, que permite começar a usar o Kubernetes sem gerar custos de gerenciamento de clusters.

  1. Começar a usar o Cloud de Confiance console

  2. Teste estes guias de início rápido:
    • Inferência no GKE: implante um modelo de linguagem grande (LLM) de IA no GKE para inferência usando uma arquitetura predefinida.
    • Treinamento no GKE: implante um modelo de treinamento de IA no GKE e armazene as previsões no Cloud Storage.
  3. Leia Sobre as opções de consumo de aceleradores para cargas de trabalho de IA/ML, que tem orientações e recursos para planejar e receber aceleradores (GPUs e TPUs) para sua plataforma.

Casos de uso comuns

O GKE oferece uma plataforma unificada que pode oferecer suporte a todas as cargas de trabalho de IA.

  • Criação de uma plataforma de IA: para equipes de plataformas empresariais, o GKE oferece a flexibilidade de criar uma plataforma padronizada de vários locatários que atende a diversas necessidades.
  • Veiculação on-line de baixa latência: para desenvolvedores que criam aplicativos de IA generativa, o GKE com o Inference Gateway oferece o roteamento otimizado e o escalonamento automático necessários para oferecer uma experiência do usuário responsiva controlando os custos.

Escolher a plataforma certa para sua carga de trabalho de IA/ML

Cloud de Confiance by S3NS oferece um espectro de produtos de infraestrutura de IA para oferecer suporte à sua jornada de ML, de totalmente gerenciada a totalmente configurável. A escolha da plataforma certa depende das suas necessidades específicas de controle, flexibilidade e nível de gerenciamento.

Prática recomendada:

Escolha o GKE quando precisar de controle total, portabilidade e a capacidade de criar uma plataforma de IA personalizada e de alto desempenho.

  • Controle e flexibilidade da infraestrutura: você precisa de um alto grau de controle sobre sua infraestrutura, precisa usar pipelines personalizados ou requer personalizações no nível do kernel.
  • Treinamento e inferência em grande escala: você quer treinar modelos muito grandes ou disponibilizar modelos com latência mínima, usando o escalonamento e o alto desempenho do GKE.
  • Eficiência de custos em escala: você quer priorizar a otimização de custos usando a integração do GKE com VMs do Spot e VMs de início flexível para gerenciar custos de maneira eficaz.
  • Portabilidade e padrões abertos: você quer evitar a dependência do fornecedor e executar suas cargas de trabalho em qualquer lugar com o Kubernetes, e já tem experiência com o Kubernetes ou uma estratégia multicloud.

Você também pode considerar estas alternativas:

Cloud de Confiance by S3NS Serviço do Ideal para
Vertex AI Uma plataforma completa e totalmente gerenciada para acelerar o desenvolvimento e descarregar o gerenciamento de infraestrutura. Funciona bem para equipes focadas em MLOps e tempo de retorno do investimento rápido. Para mais informações, assista a Escolher entre o GKE auto-hospedado e os modelos de IA hospedados da Vertex AI.

Como o GKE oferece suporte a cargas de trabalho de IA/ML

O GKE oferece um conjunto de componentes especializados que simplificam e aceleram cada etapa do ciclo de vida de IA/ML, desde o treinamento em grande escala até a inferência de baixa latência.

No diagrama a seguir, o GKE está dentro de Cloud de Confiance by S3NSe pode usar diferentes opções de armazenamento em nuvem (como o Cloud Storage FUSE e o Managed Lustre) e diferentes opções de infraestrutura em nuvem (como o Cloud TPU e as Cloud GPUs). O GKE também funciona com softwares e frameworks de código aberto para aprendizado profundo (como JAX ou TensorFlow), orquestração de ML (como Jupyter ou Ray) e inferência de LLM (como vLLM ou NVIDIA Dynamo).
Figura 1: GKE como uma plataforma gerenciada escalonável para cargas de trabalho de IA/ML.

A tabela a seguir resume os recursos do GKE que oferecem suporte às cargas de trabalho de IA/ML ou às metas operacionais.

Carga de trabalho ou operação de IA/ML Como o GKE oferece suporte Principais recursos
Inferência e disponibilização Otimizado para disponibilizar modelos de IA de maneira elástica, com baixa latência, alta capacidade de processamento e eficiência de custos.
  • Flexibilidade do acelerador: o GKE oferece suporte a GPUs para inferência.
  • GKE Inference Gateway: um gateway com reconhecimento de modelo que oferece roteamento inteligente e balanceamento de carga especificamente para cargas de trabalho de inferência de IA.
  • Guia de início rápido de inferência do GKE: uma ferramenta para simplificar a análise de desempenho e a implantação, fornecendo um conjunto de perfis comparativos para modelos de IA populares.
  • Autopilot do GKE: um modo operacional do GKE que automatiza as operações de cluster e o dimensionamento da capacidade, reduzindo o overhead.
Treinamento e ajuste fino Fornece os recursos de escalonamento e orquestração necessários para treinar modelos muito grandes de maneira eficiente, minimizando os custos.
  • Nós de inicialização mais rápidos: uma otimização projetada especificamente para cargas de trabalho de GPU que reduz os tempos de inicialização de nós em até 80%.
  • Kueue: um sistema de enfileiramento de jobs nativo do Kubernetes que gerencia a alocação de recursos, o agendamento, o gerenciamento de cotas e a priorização de cargas de trabalho em lote.

A seguir

  • Saiba mais sobre técnicas para receber aceleradores de computação, como GPUs ou TPUs, para cargas de trabalho de IA/ML no GKE.

  • Saiba mais sobre a inferência de modelos de IA/ML no GKE.

  • Confira exemplos experimentais para aproveitar o GKE e acelerar suas iniciativas de IA/ML nos Laboratórios de IA do GKE.

  • Confira detalhes das cargas de trabalho de IA/ML no Cloud de Confiance console, incluindo recursos como JobSets, RayJobs, PyTorchJobs e implantações para disponibilização de inferência.