Introducción a las cargas de trabajo de IA/AA en GKE

En esta página, se proporciona una descripción general conceptual de Google Kubernetes Engine (GKE) para cargas de trabajo de IA/AA. GKE es una implementación administrada por Google de la plataforma de organización de contenedores de código abierto de Kubernetes.

Google Kubernetes Engine proporciona una plataforma escalable, flexible y rentable para ejecutar todas tus cargas de trabajo alojadas en contenedores, incluidas las aplicaciones de inteligencia artificial y aprendizaje automático (IA/AA). Ya sea que entrenes modelos base grandes, entregues solicitudes de inferencia a gran escala o compiles una plataforma integral de IA, GKE ofrece el control y el rendimiento que necesitas.

Esta página está dirigida a los especialistas en IA y datos, los arquitectos de la nube, los operadores y los desarrolladores que buscan una solución de Kubernetes escalable, automatizada y administrada para ejecutar cargas de trabajo de IA/AA. Para obtener más información sobre los roles comunes, consulta Roles y tareas comunes del usuario de GKE.

Comienza a usar cargas de trabajo de IA/AA en GKE

Puedes comenzar a explorar GKE en minutos con el nivel gratuitode GKE, que te permite comenzar a usar Kubernetes sin incurrir en costos por la administración de clústeres.

  1. Comienza en Cloud de Confiance console

  2. Prueba estas guías de inicio rápido:
    • Inferencia en GKE: Implementa un modelo de lenguaje grande (LLM) de IA en GKE para la inferencia con una arquitectura predefinida.
    • Entrenamiento en GKE: Implementa un modelo de entrenamiento de IA en GKE y almacena las predicciones en Cloud Storage.
  3. Lee Acerca de las opciones de consumo de aceleradores para cargas de trabajo de IA/AA, que tiene orientación y recursos para planificar y obtener aceleradores (GPU y TPU) para tu plataforma.

Casos de uso habituales

GKE proporciona una plataforma unificada que puede admitir todas tus cargas de trabajo de IA.

  • Compilación de una plataforma de IA: Para los equipos de plataformas empresariales, GKE proporciona la flexibilidad para compilar una plataforma estandarizada de múltiples usuarios que satisfaga diversas necesidades.
  • Entrega en línea de baja latencia: Para los desarrolladores que compilan aplicaciones de IA generativa, GKE con la puerta de enlace de inferencia proporciona el enrutamiento optimizado y el ajuste de escala automático necesarios para ofrecer una experiencia del usuario responsiva mientras se controlan los costos.

Elige la plataforma adecuada para tu carga de trabajo de IA/AA

Cloud de Confiance by S3NS ofrece un espectro de productos de infraestructura de IA para admitir tu proceso de AA, desde completamente administrados hasta completamente configurables. La elección de la plataforma adecuada depende de tus necesidades específicas de control, flexibilidad y nivel de administración.

Práctica recomendada:

Elige GKE cuando necesites un control profundo, portabilidad y la capacidad de compilar una plataforma de IA personalizada y de alto rendimiento.

  • Control y flexibilidad de la infraestructura: Requiere un alto grado de control sobre tu infraestructura, necesita usar canalizaciones personalizadas o requiere personalizaciones a nivel del kernel.
  • Entrenamiento e inferencia a gran escala: Deseas entrenar modelos muy grandes o entregar modelos con una latencia mínima mediante el uso del escalamiento y el alto rendimiento de GKE.
  • Rentabilidad a gran escala: Deseas priorizar la optimización de costos mediante el uso de la integración de GKE con las VMs Spot y las VMs de inicio flexible para administrar los costos de manera eficaz.
  • Portabilidad y estándares abiertos: Deseas evitar el bloqueo del proveedor y ejecutar tus cargas de trabajo en cualquier lugar con Kubernetes, y ya tienes experiencia existente en Kubernetes o una estrategia de múltiples nubes.

También puedes considerar estas alternativas:

Cloud de Confiance by S3NS Servicio de Ideal para
Vertex AI Una plataforma de extremo a extremo completamente administrada para acelerar el desarrollo y descargar la administración de la infraestructura. Funciona bien para los equipos enfocados en MLOps y el tiempo de obtención de valor rápido. Para obtener más información, mira Cómo elegir entre GKE autoalojado y Vertex AI administrado para alojar modelos de IA.

Cómo GKE potencia las cargas de trabajo de IA/AA

GKE ofrece un conjunto de componentes especializados que simplifican y aceleran cada etapa del ciclo de vida de IA/AA, desde el entrenamiento a gran escala hasta la inferencia de baja latencia.

En el siguiente diagrama, GKE se encuentra dentro de Cloud de Confiance by S3NSy puede usar diferentes opciones de almacenamiento en la nube (como Cloud Storage FUSE y Lustre administrado) y diferentes opciones de infraestructura en la nube (como Cloud TPU y Cloud GPUs). GKE también funciona con software y frameworks de código abierto para el aprendizaje profundo (como JAX o TensorFlow), la orquestación de AA (como Jupyter o Ray) y la inferencia de LLM (como vLLM o NVIDIA Dynamo).
Figura 1: GKE como una plataforma administrada escalable para cargas de trabajo de IA/AA.

En la siguiente tabla, se resumen las funciones de GKE que admiten tus cargas de trabajo de IA/AA o tus objetivos operativos.

Carga de trabajo u operación de IA/AA Cómo te ayuda GKE Características clave
Inferencia y entrega Optimizado para entregar modelos de IA de forma elástica, con baja latencia, alta capacidad de procesamiento y rentabilidad.
  • Flexibilidad del acelerador: GKE admite GPU para la inferencia.
  • Puerta de enlace de inferencia de GKE: Una puerta de enlace con reconocimiento de modelos que proporciona enrutamiento inteligente y balanceo de cargas específicamente para cargas de trabajo de inferencia de IA.
  • Guía de inicio rápido de inferencia de GKE: Una herramienta para simplificar el análisis de rendimiento y la implementación, ya que proporciona un conjunto de perfiles comparativos para modelos de IA populares.
  • GKE Autopilot: Un modo operativo de GKE que automatiza las operaciones del clúster y el ajuste de tamaño de la capacidad, lo que reduce la sobrecarga.
Entrenamiento y ajuste Proporciona las capacidades de escalamiento y organización necesarias para entrenar de manera eficiente modelos muy grandes y, al mismo tiempo, minimizar los costos.
  • Nodos de inicio más rápido: Una optimización diseñada específicamente para cargas de trabajo de GPU que reduce los tiempos de inicio de los nodos hasta en un 80%.
  • Kueue: Un sistema de colocación de trabajos en cola nativo de Kubernetes que administra la asignación de recursos, la programación, la administración de cuotas y la priorización para cargas de trabajo por lotes.

¿Qué sigue?

  • Obtén información sobre las técnicas para obtener aceleradores de procesamiento, como GPU o TPU, para tus cargas de trabajo de IA/AA en GKE.

  • Obtén información sobre la inferencia de modelos de IA/AA en GKE.

  • Explora muestras experimentales para aprovechar GKE y acelerar tus iniciativas de IA/AA en GKE AI Labs.

  • Consulta los detalles de tus cargas de trabajo de IA/AA en Cloud de Confiance console, incluidos los recursos como JobSets, RayJobs, PyTorchJobs y las implementaciones para la entrega de inferencia.