Acerca de las instancias de GPU

En este documento, se describen las características y limitaciones de las instancias de máquina virtual (VM) con GPU que se ejecutan en Compute Engine.

Para acelerar cargas de trabajo específicas en Compute Engine, puedes implementar una instancia optimizada para aceleradores que tenga GPU conectadas o conectar GPU a una instancia N1 de uso general. Compute Engine proporciona GPU para tus instancias en modo de transferencia. El modo de transferencia proporciona a tus instancias control directo sobre las GPU y su memoria.

También puedes usar algunos tipos de máquinas con GPU en AI Hypercomputer. AI Hypercomputer es un sistema de supercomputación optimizado para admitir tus cargas de trabajo de inteligencia artificial (IA) y aprendizaje automático (AA). Esta opción se recomienda para crear una infraestructura optimizada para el rendimiento y con una asignación densa que tenga integraciones para los programadores de Google Kubernetes Engine (GKE) y Slurm.

Tipos de máquina admitidos

Las familias de máquinas optimizadas para aceleradores y de uso general N1 admiten GPU. En el caso de las instancias que usan tipos de máquinas optimizados para aceleradores, Compute Engine conecta automáticamente las GPUs cuando creas la instancia. En el caso de las instancias que usan tipos de máquinas N1, puedes conectar las GPUs a una instancia durante o después de su creación. Las GPU no son compatibles con otros tipos de máquinas.

Tipos de máquinas optimizados para aceleradores

Cada tipo de máquina optimizada para acelerador tiene un modelo específico de GPU de NVIDIA conectada. Si tienes cargas de trabajo de contenido gráfico alto, como la visualización 3D, también puedes crear estaciones de trabajo virtuales que usen estaciones de trabajo virtuales (vWS) NVIDIA RTX. La estación de trabajo virtual NVIDIA RTX está disponible para algunos modelos de GPU.

Tipo de máquina Modelo de GPU Modelo de estación de trabajo virtual (vWS) NVIDIA RTX
A4X Superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200).

Cada superchip contiene cuatro GPUs NVIDIA B200 Blackwell.

A4 GPUs NVIDIA B200 Blackwell (nvidia-b200)
A3 Ultra GPUs NVIDIA H200 SXM (nvidia-h200-141gb)
A3 Mega GPUs NVIDIA H100 SXM (nvidia-h100-mega-80gb)
A3 High, A3 Edge GPUs NVIDIA H100 SXM (nvidia-h100-80gb)
A2 Ultra GPUs NVIDIA A100 de 80 GB (nvidia-a100-80gb)
A2 estándar GPUs NVIDIA A100 de 40 GB (nvidia-a100-40gb)
G4 (vista previa) NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000)
G2 GPUs NVIDIA L4 (nvidia-l4) GPUs de estación de trabajo virtual NVIDIA L4 (nvidia-l4-vws)

Para obtener más información, consulta Familia de máquinas optimizadas para aceleradores.

Tipos de máquinas de uso general N1

Para la mayoría de los tipos de máquinas N1, excepto el núcleo compartido N1 (f1-micro y g1-small), puedes adjuntar los siguientes modelos de GPU:

GPU de NVIDIA:

  • NVIDIA T4: nvidia-tesla-t4
  • NVIDIA P4: nvidia-tesla-p4
  • NVIDIA P100: nvidia-tesla-p100
  • NVIDIA V100: nvidia-tesla-v100

NVIDIA RTX Virtual Workstation (vWS) (antes conocida como NVIDIA GRID):

  • Estación de trabajo virtual NVIDIA T4: nvidia-tesla-t4-vws
  • Estación de trabajo virtual NVIDIA P4: nvidia-tesla-p4-vws
  • Estación de trabajo virtual NVIDIA P100: nvidia-tesla-p100-vws

    Para estas estaciones de trabajo virtuales, se agrega de forma automática una licencia de estación de trabajo virtual NVIDIA RTX (vWS) a tu instancia.

Para la familia de uso general N1, puedes usar tipos de máquinas predefinidos o personalizados.

GPU en VM Spot

Puedes agregar GPU a tus VM Spot a precios puntuales más bajos para las GPU. Las GPU conectadas a las VM Spot funcionan como las GPU normales, pero persisten solo durante la vida útil de la VM. Las VM Spot con GPU siguen el mismo proceso de interrupción que todas las VM Spot.

Considera solicitar una cuota de Preemptible GPU dedicada para usar en GPU en las VM Spot. Si deseas obtener más información, consulta Cuotas para VM Spot.

Durante los eventos de mantenimiento, las VM Spot con GPU se interrumpen de forma predeterminada y no se pueden reiniciar automáticamente. Si deseas volver a crear tus VM después de que hayan sido interrumpidas, usa un grupo de instancias administrado. Los grupos de instancias administrados recrean tus instancias si están disponibles los recursos de CPU virtuales, memoria y GPU.

Si deseas recibir una advertencia antes de que se interrumpan tus VM o si deseas configurarlas para que se reinicien de forma automática después de un evento de mantenimiento, usa una VM estándar con una GPU. Para las VM estándar con GPU, Compute Engine proporciona un aviso con una hora de anticipación antes de la interrupción.

Compute Engine no te cobra por las GPU si tus VM son interrumpibles durante el primer minuto después de que comienzan a ejecutarse.

Para aprender a crear Spot VM con GPU conectadas, consulta Crea una VM con GPU conectadas y Crea Spot VM. Por ejemplo, consulta Crea una instancia A3 Ultra o A4 con VMs Spot.

GPU en instancias con tiempos de ejecución predefinidos

Por lo general, las instancias que usan el modelo de aprovisionamiento estándar no pueden usar cuotas de asignación interrumpibles. Las cuotas interrumpibles son para cargas de trabajo temporales y suelen estar más disponibles. Si tu proyecto no tiene cuota interrumpible y nunca la solicitaste, todas las instancias de tu proyecto consumen cuotas de asignación estándar.

Si solicitas una cuota de asignación interrumpible, las instancias que usan el modelo de aprovisionamiento estándar deben cumplir con todos los siguientes criterios para consumir la cuota de asignación interrumpible:

Cuando consumes asignación interrumpible para cargas de trabajo de GPU con límite de tiempo, puedes beneficiarte tanto del tiempo de ejecución ininterrumpido como de la alta disponibilidad de la cuota de asignación interrumpible. Para obtener más información, consulta Cuotas interrumpibles.

GPU y Confidential VMs

Puedes usar una GPU con una instancia de Confidential VM que use Intel TDX en la serie de máquinas A3. Para obtener más información, consulta las configuraciones compatibles de Confidential VM. Para aprender a crear una instancia de Confidential VM con GPU, consulta Crea una instancia de Confidential VM con GPU.

GPU y almacenamiento en bloque

Cuando creas una instancia con un tipo de máquina con GPU, puedes agregar almacenamiento en bloque persistente o temporal a la instancia. Para almacenar datos no transitorios, usa almacenamiento en bloque persistente, como Hyperdisk o Persistent Disk, ya que estos discos son independientes del ciclo de vida de la instancia. Los datos del almacenamiento persistente se pueden conservar incluso después de que borres la instancia.

Para el almacenamiento o las cachés temporales, usa el almacenamiento en bloque temporal. Para ello, agrega discos SSD locales cuando crees la instancia.

Almacenamiento en bloque persistente con volúmenes de Persistent Disk y Hyperdisk

Puedes conectar volúmenes de Persistent Disk y seleccionar volúmenes de Hyperdisk a instancias habilitadas para GPU.

Para las cargas de trabajo de aprendizaje automático (AA) y de entrega, usa volúmenes de Hyperdisk ML, que ofrecen una alta capacidad de procesamiento y tiempos de carga de datos más cortos. Hyperdisk ML es una opción más rentable para las cargas de trabajo de AA porque ofrece tiempos de inactividad de la GPU más bajos.

Los volúmenes de Hyperdisk ML proporcionan compatibilidad con la conexión múltiple de solo lectura, por lo que puedes conectar el mismo disco a varias instancias, lo que le da a cada instancia acceso a los mismos datos.

Para obtener más información sobre los tipos de discos compatibles con las series de máquinas que admiten GPUs, consulta las páginas de las series de máquinas N1 y optimizadas para aceleradores.

Discos SSD locales

Los discos SSD locales proporcionan almacenamiento temporal rápido para el almacenamiento en caché, el procesamiento de datos o cualquier otro dato transitorio. Los discos SSD locales proporcionan almacenamiento rápido porque están conectados físicamente al servidor que aloja tu instancia. Los discos SSD locales proporcionan almacenamiento temporal porque la instancia pierde datos si se reinicia.

Evita almacenar datos con requisitos de persistencia sólidos en discos SSD locales. Para almacenar datos no transitorios, usa el almacenamiento persistente.

Si detienes manualmente una instancia con una GPU, puedes conservar los datos del SSD local, con ciertas restricciones. Consulta la documentación de SSD local para obtener más detalles.

Para obtener información sobre la compatibilidad regional con SSD local y tipos de GPU, consulta Disponibilidad de SSD local por regiones y zonas de GPU.

GPU y mantenimiento del host

Compute Engine siempre detiene las instancias con GPU conectadas cuando realiza eventos de mantenimiento en el servidor host. Si la instancia tiene discos SSD locales conectados, perderá los datos de los SSD locales después de detenerse.

Para obtener información sobre cómo controlar los eventos de mantenimiento, consulta Controla eventos de mantenimiento del host de GPU.

Precios de GPU

En el caso de las instancias que tienen GPU conectadas, incurres en costos de la siguiente manera:

Para conocer los precios por hora y por mes de las GPU, consulta la página de precios de GPU.

Reserva GPUs con descuentos por compromiso de uso

Para reservar recursos de GPU en una zona específica, consulta Elige un tipo de reserva.

A fin de recibir descuentos por compromiso de uso para GPU en una zona específica, debes comprar compromisos basados en recursos para las GPU y también adjuntar reservas que especifiquen las GPU coincidentes a tus compromisos. Para obtener más información, consulta Adjunta reservas a compromisos basados en recursos.

Restricciones y limitaciones de GPU

Para las instancias con GPUs conectadas, se aplican las siguientes restricciones y limitaciones:

  • Solo los tipos de máquinas optimizadas para aceleradores (A4X, A4, A3, A2 y G2) y de N1 de uso general admiten GPU.

  • Para proteger los sistemas y usuarios de Compute Engine, los proyectos nuevos tienen una cuota global de GPU que limita la cantidad total de GPU que puedes crear en cualquier zona compatible. Cuando solicitas una cuota de GPU, debes especificar una cuota de los modelos de GPU que quieres crear en cada región, así como indicar la cuota global con la cantidad total de GPU de los tipos de todas las zonas.

  • Las instancias con una o más GPU tienen un número máximo de CPU virtuales para cada GPU que agregues a la instancia. Si deseas ver los rangos de CPU virtuales y memoria disponibles para diferentes configuraciones de GPU, consulta la lista de GPU.

  • Las GPU requieren controladores de dispositivo para funcionar correctamente. Las GPU de NVIDIA que se ejecutan en Compute Engine deben usar una versión de controlador mínima. Para obtener más información sobre las versiones de controlador, consulta Versiones de controladores NVIDIA necesarias.

  • El ANS de Compute Engine cubre las instancias con un modelo de GPU conectado solo si ese modelo de GPU conectado está disponible de forma general.

    En el caso de las regiones que tienen varias zonas, el ANS de Compute Engine cubre la instancia solo si el modelo de GPU está disponible en más de una zona dentro de esa región. Para ver los modelos de GPU por región, consulta Regiones y zonas de GPU.

  • Compute Engine admite un usuario simultáneo por GPU.

  • Consulta también las limitaciones para cada tipo de máquina con GPUs conectadas.

Próximos pasos