Es posible que parte o toda la información de esta página no se aplique a Cloud de Confiance de S3NS. Para obtener más información, consulta Diferencias con respecto a Google Cloud.

Esta página se ha traducido con Cloud Translation API.

Acerca de las instancias de GPU

En este documento se describen las funciones y las limitaciones de las instancias de máquina virtual (VM) con GPU que se ejecutan en Compute Engine.

Para acelerar cargas de trabajo específicas en Compute Engine, puedes desplegar una instancia optimizada para aceleradores que tenga GPUs conectadas o conectar GPUs a una instancia de uso general N1. Compute Engine proporciona GPUs para tus instancias en modo de transferencia directa. El modo Passthrough proporciona a tus instancias control directo sobre las GPUs y su memoria.

También puedes usar algunos tipos de máquinas con GPU en AI Hypercomputer. AI Hypercomputer es un sistema de supercomputación optimizado para admitir tus cargas de trabajo de inteligencia artificial (IA) y aprendizaje automático (ML). Esta opción se recomienda para crear una infraestructura densamente asignada y optimizada para el rendimiento que tenga integraciones para Google Kubernetes Engine (GKE) y los programadores de Slurm.

Tipos de máquinas admitidos

Compute Engine ofrece diferentes tipos de máquinas para admitir tus diversas cargas de trabajo.

Algunos tipos de máquinas admiten estaciones de trabajo virtuales (vWS) NVIDIA RTX. Cuando creas una instancia que usa la estación de trabajo virtual NVIDIA RTX, Compute Engine añade automáticamente una licencia de vWS. Para obtener información sobre los precios de las estaciones de trabajo virtuales, consulta la página de precios de las GPUs.

Tipos de máquinas con GPU
Cargas de trabajo de IA y aprendizaje automático	Gráficos y visualización	Otras cargas de trabajo de GPU
Los tipos de máquinas de la serie A optimizados para aceleradores se han diseñado para cargas de trabajo de computación de alto rendimiento (HPC), inteligencia artificial (IA) y aprendizaje automático (ML). La serie A de generaciones posteriores es ideal para el preentrenamiento y el ajuste de modelos fundacionales que implican grandes clústeres de aceleradores, mientras que la serie A2 se puede usar para entrenar modelos más pequeños y para la inferencia de un solo host. En estos tipos de máquinas, el modelo de GPU se adjunta automáticamente a la instancia.	Los tipos de máquinas de la serie G optimizados para aceleradores se han diseñado para cargas de trabajo como las de simulación de NVIDIA Omniverse, las aplicaciones que requieren muchos gráficos, la transcodificación de vídeo y los escritorios virtuales. Estos tipos de máquinas admiten estaciones de trabajo virtuales (vWS) NVIDIA RTX. La serie G también se puede usar para entrenar modelos más pequeños y para la inferencia de un solo host. En estos tipos de máquinas, el modelo de GPU se adjunta automáticamente a la instancia.	En los tipos de máquinas de uso general N1, excepto en los de núcleo compartido N1 (`f1-micro` y `g1-small`), puedes adjuntar un conjunto de modelos de GPU. Algunos de estos modelos de GPU también admiten estaciones de trabajo virtuales (vWS) NVIDIA RTX.
A4X (Superchips NVIDIA GB200) (`nvidia-gb200`) A4 (NVIDIA B200) (`nvidia-b200`) A3 Ultra (NVIDIA H200) (`nvidia-h200-141gb`) A3 Mega (NVIDIA H100) (`nvidia-h100-mega-80gb`) A3 High (NVIDIA H100) (`nvidia-h100-80gb`) A3 Edge (NVIDIA H100) (`nvidia-h100-80gb`) A2 Ultra (NVIDIA A100 de 80 GB) (`nvidia-a100-80gb`) A2 Standard (NVIDIA A100) (`nvidia-a100-40gb`)	G4 (NVIDIA RTX PRO 6000) (`nvidia-rtx-pro-6000`) (`nvidia-rtx-pro-6000-vws`) G2 (NVIDIA L4) (`nvidia-l4`) (`nvidia-l4-vws`)	Los siguientes modelos de GPU se pueden asociar a tipos de máquinas de uso general N1: NVIDIA T4 (`nvidia-tesla-t4`) (`nvidia-tesla-t4-vws`) NVIDIA P4 (`nvidia-tesla-p4`) (`nvidia-tesla-p4-vws`) NVIDIA V100 (`nvidia-tesla-v100`) NVIDIA P100 (`nvidia-tesla-p100`) (`nvidia-tesla-p100-vws`)

Tipos de máquinas con GPU

Cargas de trabajo de IA y aprendizaje automático Gráficos y visualización Otras cargas de trabajo de GPU

Los tipos de máquinas de la serie A optimizados para aceleradores se han diseñado para cargas de trabajo de computación de alto rendimiento (HPC), inteligencia artificial (IA) y aprendizaje automático (ML).

La serie A de generaciones posteriores es ideal para el preentrenamiento y el ajuste de modelos fundacionales que implican grandes clústeres de aceleradores, mientras que la serie A2 se puede usar para entrenar modelos más pequeños y para la inferencia de un solo host.

En estos tipos de máquinas, el modelo de GPU se adjunta automáticamente a la instancia.

Los tipos de máquinas de la serie G optimizados para aceleradores se han diseñado para cargas de trabajo como las de simulación de NVIDIA Omniverse, las aplicaciones que requieren muchos gráficos, la transcodificación de vídeo y los escritorios virtuales. Estos tipos de máquinas admiten estaciones de trabajo virtuales (vWS) NVIDIA RTX.

La serie G también se puede usar para entrenar modelos más pequeños y para la inferencia de un solo host.

En estos tipos de máquinas, el modelo de GPU se adjunta automáticamente a la instancia.

En los tipos de máquinas de uso general N1, excepto en los de núcleo compartido N1 (f1-micro y g1-small), puedes adjuntar un conjunto de modelos de GPU. Algunos de estos modelos de GPU también admiten estaciones de trabajo virtuales (vWS) NVIDIA RTX.

A4X (Superchips NVIDIA GB200)
(nvidia-gb200)
A4 (NVIDIA B200)
(nvidia-b200)
A3 Ultra (NVIDIA H200)
(nvidia-h200-141gb)
A3 Mega (NVIDIA H100)
(nvidia-h100-mega-80gb)
A3 High (NVIDIA H100)
(nvidia-h100-80gb)
A3 Edge (NVIDIA H100)
(nvidia-h100-80gb)
A2 Ultra (NVIDIA A100 de 80 GB)
(nvidia-a100-80gb)
A2 Standard (NVIDIA A100)
(nvidia-a100-40gb)

G4 (NVIDIA RTX PRO 6000)
(nvidia-rtx-pro-6000)
(nvidia-rtx-pro-6000-vws)
G2 (NVIDIA L4)
(nvidia-l4)
(nvidia-l4-vws)

Los siguientes modelos de GPU se pueden asociar a tipos de máquinas de uso general N1:

NVIDIA T4
(nvidia-tesla-t4)
(nvidia-tesla-t4-vws)
NVIDIA P4
(nvidia-tesla-p4)
(nvidia-tesla-p4-vws)
NVIDIA V100
(nvidia-tesla-v100)
NVIDIA P100
(nvidia-tesla-p100)
(nvidia-tesla-p100-vws)

GPUs en máquinas virtuales de acceso puntual

Puedes añadir GPUs a tus máquinas virtuales Spot a precios Spot más bajos para las GPUs. Las GPUs vinculadas a las VMs de acceso puntual funcionan como las GPUs normales, pero solo persisten durante la vida útil de la VM. Las VMs de Spot con GPUs siguen el mismo proceso de desalojo que todas las VMs de Spot.

Te recomendamos que solicites una cuota Preemptible GPU para usar GPUs en máquinas virtuales de Spot. Para obtener más información, consulta Cuotas de VMs de acceso puntual.

Durante los eventos de mantenimiento, las VMs spot con GPUs se desalojan de forma predeterminada y no se pueden reiniciar automáticamente. Si quieres volver a crear tus VMs después de que se hayan interrumpido temporalmente, usa un grupo de instancias gestionado. Los grupos de instancias gestionados vuelven a crear tus instancias de VM si los recursos de vCPU, memoria y GPU están disponibles.

Si quieres recibir una advertencia antes de que se interrumpan tus VMs o quieres configurarlas para que se reinicien automáticamente después de un evento de mantenimiento, usa VMs estándar con una GPU. En el caso de las máquinas virtuales estándar con GPUs, Compute Engine avisa con una hora de antelación antes de la expropiación.

Compute Engine no te cobra por las GPUs si sus VMs se interrumpen durante el primer minuto después de que empiecen a ejecutarse.

Para saber cómo crear máquinas virtuales de acceso puntual con GPUs vinculadas, consulta los artículos Crear una máquina virtual con GPUs vinculadas y Crear máquinas virtuales de acceso puntual. Por ejemplo, consulta Crear una instancia A3 Ultra o A4 con máquinas virtuales de Spot.

GPUs en instancias con tiempos de ejecución predefinidos

Las instancias que usan el modelo de aprovisionamiento estándar normalmente no pueden usar las cuotas de asignación de instancias no garantizadas. Las cuotas de recursos interrumpibles son para cargas de trabajo temporales y suelen estar más disponibles. Si tu proyecto no tiene cuota interrumpible y nunca la has solicitado, todas las instancias de tu proyecto consumen cuotas de asignación estándar.

Si solicitas una cuota de asignación de recursos preemptiva, las instancias que usen el modelo de aprovisionamiento estándar deben cumplir todos los criterios siguientes para consumir la cuota de asignación de recursos preemptiva:

Las instancias tienen GPUs conectadas.
Las instancias se configuran para que se eliminen automáticamente después de un tiempo de ejecución predefinido a través del campo maxRunDuration o terminationTime. Para obtener más información, consulta lo siguiente:
- Limitar el tiempo de ejecución de una instancia
- Limitar el tiempo de ejecución de las instancias de un MIG
La instancia no tiene permiso para consumir reservas. Para obtener más información, consulta el artículo Impedir que las instancias de proceso consuman reservas.

Cuando consumes asignación de recursos no garantizados para cargas de trabajo de GPU con plazos, puedes beneficiarte tanto del tiempo de ejecución ininterrumpido como de la alta disponibilidad de la cuota de asignación de recursos no garantizados. Para obtener más información, consulta las cuotas de instancias preemptivas.

GPUs y Confidential VMs

Puedes usar una GPU con una instancia de máquina virtual confidencial que use Intel TDX en la serie de máquinas A3. Para obtener más información, consulta las configuraciones admitidas de las VMs confidenciales. Para saber cómo crear una instancia de VM confidencial con GPUs, consulta el artículo Crear una instancia de VM confidencial con GPU.

GPUs y almacenamiento en bloques

Cuando creas una instancia con un tipo de máquina con GPU, puedes añadir almacenamiento en bloque persistente o temporal a la instancia. Para almacenar datos no transitorios, usa almacenamiento en bloques persistente, como Hyperdisk o Persistent Disk, ya que estos discos son independientes del ciclo de vida de la instancia. Los datos del almacenamiento persistente se pueden conservar incluso después de eliminar la instancia.

Para el almacenamiento temporal o las cachés, usa el almacenamiento en bloques temporal añadiendo discos SSD locales al crear la instancia.

Almacenamiento en bloques persistente con volúmenes de Persistent Disk e Hyperdisk

Puedes adjuntar volúmenes de Persistent Disk y seleccionar volúmenes de Hyperdisk a instancias con GPU.

Para las cargas de trabajo de aprendizaje automático (ML) y de servicio, usa volúmenes de Hyperdisk ML, que ofrecen un alto rendimiento y tiempos de carga de datos más cortos. Hyperdisk ML es una opción más rentable para las cargas de trabajo de aprendizaje automático porque ofrece tiempos de inactividad de la GPU más bajos.

Los volúmenes de Hyperdisk ML ofrecen compatibilidad con la conexión múltiple de solo lectura, por lo que puede conectar el mismo disco a varias instancias, lo que permite que cada instancia acceda a los mismos datos.

Para obtener más información sobre los tipos de disco admitidos en las series de máquinas que admiten GPUs, consulta las páginas de las series de máquinas N1 y optimizadas para aceleradores.

Discos SSD locales

Los discos SSD locales proporcionan almacenamiento temporal rápido para el almacenamiento en caché, el procesamiento de datos u otros datos transitorios. Los discos SSD locales proporcionan almacenamiento rápido porque están montados físicamente en el servidor en el que se aloja la instancia. Los discos SSD locales proporcionan almacenamiento temporal, ya que la instancia pierde los datos si se reinicia.

Evita almacenar datos con requisitos de persistencia elevados en discos SSD locales. Para almacenar datos no transitorios, usa el almacenamiento persistente.

Si detienes manualmente una instancia con una GPU, puedes conservar los datos del SSD local, con ciertas restricciones. Consulta más información en la documentación de SSD local.

Para obtener información sobre la compatibilidad regional de los SSD locales con los tipos de GPU, consulta Disponibilidad de SSD local por regiones y zonas de GPU.

GPUs y mantenimiento del host

Compute Engine siempre detiene las instancias con GPUs conectadas cuando realiza eventos de mantenimiento en el servidor host. Si la instancia tiene discos SSD locales conectados, perderá los datos de los SSD locales después de detenerse.

Para obtener información sobre cómo gestionar eventos de mantenimiento, consulta Gestionar eventos de mantenimiento de host de GPU.

Reservar capacidad de GPU

Las reservas ofrecen una alta garantía de capacidad para los recursos específicos de una zona, incluidas las GPUs. Puedes usar reservas para asegurarte de que tienes GPUs disponibles cuando las necesites para aplicaciones que requieran un alto rendimiento. Para obtener información sobre los distintos métodos para reservar recursos específicos de una zona en Compute Engine, consulta Elegir un tipo de reserva.

También se necesitan reservas si quieres recibir descuentos por compromiso de uso (CUDs) para tus GPUs.

Precios de GPUs

Si solicitas a Compute Engine que aprovisione GPUs mediante el modelo de aprovisionamiento Spot, de inicio flexible o vinculado a una reserva, obtendrás las GPUs a precios con descuento, en función del tipo de GPU. También puedes recibir descuentos por compromiso de uso o por uso continuado (solo con máquinas virtuales N1) por el uso de GPUs.

Para consultar los precios por hora y por mes de las GPUs, visita la página de precios de las GPUs.

Descuentos por compromiso de uso de GPUs

Los compromisos basados en recursos ofrecen grandes descuentos en los recursos de Compute Engine a cambio de comprometerse a usar los recursos en una región concreta durante al menos un año. Normalmente, se compran compromisos de recursos como vCPUs, memoria, GPUs y discos SSD locales para usarlos con una serie de máquinas específica. Cuando usas tus recursos, recibes un uso de recursos apto a precios con descuento. Para obtener más información sobre estos descuentos, consulta el artículo Descuentos por compromiso de uso basados en recursos.

Para comprar un compromiso con GPUs, también debes reservar las GPUs y adjuntar las reservas a tu compromiso. Para obtener más información sobre cómo asociar reservas a compromisos, consulta el artículo Asociar reservas a compromisos basados en recursos.

Descuentos por uso continuado de GPUs

Las instancias que usan tipos de máquina N1 con GPUs conectadas reciben descuentos por uso continuado, al igual que las vCPUs. Cuando seleccionas una GPU para una estación de trabajo virtual, Compute Engine añade automáticamente una licencia de estación de trabajo virtual NVIDIA RTX a tu instancia.

Restricciones y limitaciones de las GPUs

En el caso de las instancias con GPUs conectadas, se aplican las siguientes restricciones y limitaciones:

Solo los tipos de máquinas optimizadas para aceleradores (A4X, A4, A3, A2, G4 y G2) y los de uso general N1 admiten GPUs.
Para proteger los sistemas y los usuarios de Compute Engine, los proyectos nuevos tienen una cuota de GPU global que limita el número total de GPUs que puedes crear en cualquier zona admitida. Cuando solicites una cuota de GPUs, tienes que pedir una cuota para los modelos de GPU que vayas a crear en cada región y, además, una cuota global para el total de GPUs (de todos los tipos y en todas las zonas).
Las instancias con una o varias GPUs tienen un número máximo de vCPUs por cada GPU que añadas a la instancia. Para ver los intervalos de vCPU y memoria disponibles para las distintas configuraciones de GPU, consulta la lista de GPUs.
Las GPUs requieren controladores de dispositivo para funcionar correctamente. Las GPUs de NVIDIA que se ejecutan en Compute Engine deben usar una versión mínima del controlador. Para obtener más información sobre las versiones de los controladores, consulta Versiones de controladores de NVIDIA necesarias.
El Acuerdo de Nivel de Servicio de Compute Engine cubre las instancias con un modelo de GPU asociado solo si ese modelo de GPU asociado está disponible de forma general.

En las regiones que tienen varias zonas, el SLA de Compute Engine solo cubre la instancia si el modelo de GPU está disponible en más de una zona de esa región. Para ver los modelos de GPU por región, consulta Regiones y zonas de GPU.
Compute Engine admite un usuario simultáneo por GPU.
Consulta también las limitaciones de cada tipo de máquina con GPUs conectadas.

Siguientes pasos

Consulta cómo crear instancias con GPUs vinculadas.
Consulta cómo añadir o quitar GPUs.
Consulta cómo crear una instancia de máquina virtual confidencial con una GPU vinculada.