Algumas ou todas as informações nesta página podem não se aplicar ao Cloud de Confiance da S3NS. Consulte Diferenças do Google Cloud para saber mais.

Introdução às cargas de trabalho de IA/ML no GKE

Autopilot Standard

Esta página oferece uma visão geral conceitual do Google Kubernetes Engine (GKE) para cargas de trabalho de IA/ML. O GKE é uma implementação gerenciada pelo Google da plataforma de orquestração de contêineres de código aberto do Kubernetes.

O Google Kubernetes Engine oferece uma plataforma escalonável, flexível e econômica para executar todas as suas cargas de trabalho conteinerizadas, incluindo aplicativos de inteligência artificial e machine learning (IA/ML). Se você estiver treinando modelos de base grandes, disponibilizando solicitações de inferência em escala ou criando uma plataforma de IA abrangente, o GKE oferece o controle e o desempenho necessários.

Esta página é destinada a especialistas em dados e IA, arquitetos de nuvem, operadores e desenvolvedores que procuram uma solução escalonável, automatizada e gerenciada do Kubernetes para executar cargas de trabalho de IA/ML. Para saber mais sobre as funções comuns, consulte Funções e tarefas de usuário comuns do GKE.

Começar a usar cargas de trabalho de IA/ML no GKE

Você pode começar a explorar o GKE em minutos usando o nível sem custo financeiro do GKE, que permite começar a usar o Kubernetes sem gerar custos de gerenciamento de clusters.

Começar a usar o Cloud de Confiance console
Teste estes guias de início rápido:
- Inferência no GKE: implante um modelo de linguagem grande (LLM) de IA no GKE para inferência usando uma arquitetura predefinida.
- Treinamento no GKE: implante um modelo de treinamento de IA no GKE e armazene as previsões no Cloud Storage.
Leia Sobre as opções de consumo de aceleradores para cargas de trabalho de IA/ML, que tem orientações e recursos para planejar e receber aceleradores (GPUs e TPUs) para sua plataforma.

Casos de uso comuns

O GKE oferece uma plataforma unificada que pode oferecer suporte a todas as cargas de trabalho de IA.

Criação de uma plataforma de IA: para equipes de plataformas empresariais, o GKE oferece a flexibilidade de criar uma plataforma padronizada de vários locatários que atende a diversas necessidades.
Veiculação on-line de baixa latência: para desenvolvedores que criam aplicativos de IA generativa, o GKE com o Inference Gateway oferece o roteamento otimizado e o escalonamento automático necessários para oferecer uma experiência do usuário responsiva controlando os custos.

Escolher a plataforma certa para sua carga de trabalho de IA/ML

Cloud de Confiance by S3NS oferece um espectro de produtos de infraestrutura de IA para oferecer suporte à sua jornada de ML, de totalmente gerenciada a totalmente configurável. A escolha da plataforma certa depende das suas necessidades específicas de controle, flexibilidade e nível de gerenciamento.

Prática recomendada:

Escolha o GKE quando precisar de controle total, portabilidade e a capacidade de criar uma plataforma de IA personalizada e de alto desempenho.

Controle e flexibilidade da infraestrutura: você precisa de um alto grau de controle sobre sua infraestrutura, precisa usar pipelines personalizados ou requer personalizações no nível do kernel.
Treinamento e inferência em grande escala: você quer treinar modelos muito grandes ou disponibilizar modelos com latência mínima, usando o escalonamento e o alto desempenho do GKE.
Eficiência de custos em escala: você quer priorizar a otimização de custos usando a integração do GKE com VMs do Spot e VMs de início flexível para gerenciar custos de maneira eficaz.
Portabilidade e padrões abertos: você quer evitar a dependência do fornecedor e executar suas cargas de trabalho em qualquer lugar com o Kubernetes, e já tem experiência com o Kubernetes ou uma estratégia multicloud.

Você também pode considerar estas alternativas:

Cloud de Confiance by S3NS Serviço do	Ideal para
Vertex AI	Uma plataforma completa e totalmente gerenciada para acelerar o desenvolvimento e descarregar o gerenciamento de infraestrutura. Funciona bem para equipes focadas em MLOps e tempo de retorno do investimento rápido. Para mais informações, assista a Escolher entre o GKE auto-hospedado e os modelos de IA hospedados da Vertex AI.

Como o GKE oferece suporte a cargas de trabalho de IA/ML

O GKE oferece um conjunto de componentes especializados que simplificam e aceleram cada etapa do ciclo de vida de IA/ML, desde o treinamento em grande escala até a inferência de baixa latência.

No diagrama a seguir, o GKE está dentro de Cloud de Confiance by S3NSe pode usar diferentes opções de armazenamento em nuvem (como o Cloud Storage FUSE e o Managed Lustre) e diferentes opções de infraestrutura em nuvem (como o Cloud TPU e as Cloud GPUs). O GKE também funciona com softwares e frameworks de código aberto para aprendizado profundo (como JAX ou TensorFlow), orquestração de ML (como Jupyter ou Ray) e inferência de LLM (como vLLM ou NVIDIA Dynamo). — **Figura 1**: GKE como uma plataforma gerenciada escalonável para cargas de trabalho de IA/ML.

A tabela a seguir resume os recursos do GKE que oferecem suporte às cargas de trabalho de IA/ML ou às metas operacionais.

Carga de trabalho ou operação de IA/ML	Como o GKE oferece suporte	Principais recursos
Inferência e disponibilização	Otimizado para disponibilizar modelos de IA de maneira elástica, com baixa latência, alta capacidade de processamento e eficiência de custos.	Flexibilidade do acelerador: o GKE oferece suporte a GPUs para inferência. GKE Inference Gateway: um gateway com reconhecimento de modelo que oferece roteamento inteligente e balanceamento de carga especificamente para cargas de trabalho de inferência de IA. Guia de início rápido de inferência do GKE: uma ferramenta para simplificar a análise de desempenho e a implantação, fornecendo um conjunto de perfis comparativos para modelos de IA populares. Autopilot do GKE: um modo operacional do GKE que automatiza as operações de cluster e o dimensionamento da capacidade, reduzindo o overhead.
Treinamento e ajuste fino	Fornece os recursos de escalonamento e orquestração necessários para treinar modelos muito grandes de maneira eficiente, minimizando os custos.	Nós de inicialização mais rápidos: uma otimização projetada especificamente para cargas de trabalho de GPU que reduz os tempos de inicialização de nós em até 80%. Kueue: um sistema de enfileiramento de jobs nativo do Kubernetes que gerencia a alocação de recursos, o agendamento, o gerenciamento de cotas e a priorização de cargas de trabalho em lote.

A seguir

Saiba mais sobre técnicas para receber aceleradores de computação, como GPUs ou TPUs, para cargas de trabalho de IA/ML no GKE.

Saiba mais sobre a inferência de modelos de IA/ML no GKE.

Confira exemplos experimentais para aproveitar o GKE e acelerar suas iniciativas de IA/ML nos Laboratórios de IA do GKE.

Confira detalhes das cargas de trabalho de IA/ML no Cloud de Confiance console, incluindo recursos como JobSets, RayJobs, PyTorchJobs e implantações para disponibilização de inferência.