Es posible que parte de la información de esta página (o toda) no se aplique a Cloud de Confiance de S3NS. Consulta Diferencias con Google Cloud para obtener más información.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Acerca de las instancias de GPU

En este documento, se describen las características y limitaciones de las instancias de Compute Engine que tienen GPU conectadas.

Para acelerar cargas de trabajo específicas en Compute Engine, puedes implementar una instancia optimizada para aceleradores que tenga GPU conectadas o conectar GPU a una instancia de uso general N1. Para la mayoría de las cargas de trabajo, Compute Engine proporciona GPU para tus instancias en modo de transferencia, lo que les brinda a tus instancias control directo sobre las GPU y su memoria. Sin embargo, para las cargas de trabajo que son más intensivas en gráficos y se ejecutan en GPU G4, G2 o N1, puedes usar estaciones de trabajo virtuales (vWS) NVIDIA RTX. En las instancias G4, NVIDIA RTX vWS permite el uso de tipos de máquinas de GPU fraccionarias. Con estos tipos de máquinas, varias estaciones de trabajo virtuales pueden compartir una sola GPU física si se asigna una GPU virtual (vGPU) a cada instancia. Las instancias G2 y N1 admiten vWS, pero no admiten tipos de máquinas de vGPU fraccionarias.

También puedes usar algunos tipos de máquinas de GPU en AI Hypercomputer. AI Hypercomputer es un sistema de supercomputación optimizado para admitir cargas de trabajo de Inteligencia Artificial (IA) y aprendizaje automático (AA). Se recomienda esta opción para crear una infraestructura asignada de manera densa y optimizada para el rendimiento que tenga integraciones para Google Kubernetes Engine (GKE) y los planificadores de Slurm.

Tipos de máquina admitidos

Compute Engine ofrece diferentes tipos de máquinas para admitir tus diversas cargas de trabajo.

Algunos tipos de máquinas admiten estaciones de trabajo virtuales (vWS) NVIDIA RTX. Cuando creas una instancia que usa la estación de trabajo virtual NVIDIA RTX, Compute Engine agrega automáticamente una licencia de vWS. Para obtener información sobre los precios de las estaciones de trabajo virtuales, consulta la página de precios de GPU.

Tipos de máquinas de GPU
Cargas de trabajo de IA y AA	Gráficos y visualización	Otras cargas de trabajo de GPU
Los tipos de máquinas de la serie A optimizados para aceleradores están diseñados para cargas de trabajo de computación de alto rendimiento (HPC), inteligencia artificial (IA) y aprendizaje automático (AA). La serie A de última generación es ideal para el entrenamiento previo y el ajuste de modelos de base que involucran grandes clústeres de aceleradores, mientras que la serie A2 se puede usar para entrenar modelos más pequeños y la inferencia de un solo host. Para estos tipos de máquinas, el modelo de GPU se conecta automáticamente a la instancia.	Lostipos de máquinas de la serie G optimizados para aceleradores están diseñados para cargas de trabajo como las cargas de trabajo de simulación de NVIDIA Omniverse, las aplicaciones de alto contenido gráfico, la transcodificación de video y los escritorios virtuales. Estos tipos de máquinas admiten estaciones de trabajo virtuales (vWS) NVIDIA RTX. La serie G también se puede usar para entrenar modelos más pequeños y para la inferencia de un solo host. Para estos tipos de máquinas, el modelo de GPU se conecta automáticamente a la instancia.	Para los tipos de máquinas de uso general N1, excepto para el N1 con núcleo compartido (`f1-micro` y `g1-small`), puedes conectar un conjunto seleccionado de modelos de GPU. Algunos de estos modelos de GPU también admiten estaciones de trabajo virtuales (vWS) NVIDIA RTX .
A4X Max (NVIDIA GB300 Ultra Superchips) (`nvidia-gb300`) A4X (NVIDIA GB200 Superchips) (`nvidia-gb200`) A4 (NVIDIA B200) (`nvidia-b200`) A3 Ultra (NVIDIA H200) (`nvidia-h200-141gb`) A3 Mega (NVIDIA H100) (`nvidia-h100-mega-80gb`) A3 High (NVIDIA H100) (`nvidia-h100-80gb`) A3 Edge (NVIDIA H100) (`nvidia-h100-80gb`) A2 Ultra (NVIDIA A100 80GB) (`nvidia-a100-80gb`) A2 estándar (NVIDIA A100) (`nvidia-a100-40gb`)	G4 (NVIDIA RTX PRO 6000) (`nvidia-rtx-pro-6000`) (`nvidia-rtx-pro-6000-vws`) G2 (NVIDIA L4) (`nvidia-l4`) (`nvidia-l4-vws`)	Los siguientes modelos de GPU se pueden conectar a tipos de máquinas de uso general N1: NVIDIA T4 (`nvidia-tesla-t4`) (`nvidia-tesla-t4-vws`) NVIDIA P4 (`nvidia-tesla-p4`) (`nvidia-tesla-p4-vws`) NVIDIA V100 (`nvidia-tesla-v100`) NVIDIA P100 (`nvidia-tesla-p100`) (`nvidia-tesla-p100-vws`)

Tipos de máquinas de GPU

Cargas de trabajo de IA y AA Gráficos y visualización Otras cargas de trabajo de GPU

Los tipos de máquinas de la serie A optimizados para aceleradores están diseñados para cargas de trabajo de computación de alto rendimiento (HPC), inteligencia artificial (IA) y aprendizaje automático (AA).

La serie A de última generación es ideal para el entrenamiento previo y el ajuste de modelos de base que involucran grandes clústeres de aceleradores, mientras que la serie A2 se puede usar para entrenar modelos más pequeños y la inferencia de un solo host.

Para estos tipos de máquinas, el modelo de GPU se conecta automáticamente a la instancia.

Los**tipos de máquinas de la serie G optimizados para aceleradores** están diseñados para cargas de trabajo como las cargas de trabajo de simulación de NVIDIA Omniverse, las aplicaciones de alto contenido gráfico, la transcodificación de video y los escritorios virtuales. Estos tipos de máquinas admiten estaciones de trabajo virtuales (vWS) NVIDIA RTX.

La serie G también se puede usar para entrenar modelos más pequeños y para la inferencia de un solo host.

Para estos tipos de máquinas, el modelo de GPU se conecta automáticamente a la instancia.

Para los tipos de máquinas de uso general N1, excepto para el N1 con núcleo compartido (f1-micro y g1-small), puedes conectar un conjunto seleccionado de modelos de GPU. Algunos de estos modelos de GPU también admiten estaciones de trabajo virtuales (vWS) NVIDIA RTX .

A4X Max (NVIDIA GB300 Ultra Superchips)
(nvidia-gb300)
A4X (NVIDIA GB200 Superchips)
(nvidia-gb200)
A4 (NVIDIA B200)
(nvidia-b200)
A3 Ultra (NVIDIA H200)
(nvidia-h200-141gb)
A3 Mega (NVIDIA H100)
(nvidia-h100-mega-80gb)
A3 High (NVIDIA H100)
(nvidia-h100-80gb)
A3 Edge (NVIDIA H100)
(nvidia-h100-80gb)
A2 Ultra (NVIDIA A100 80GB)
(nvidia-a100-80gb)
A2 estándar (NVIDIA A100)
(nvidia-a100-40gb)

G4 (NVIDIA RTX PRO 6000)
(nvidia-rtx-pro-6000)
(nvidia-rtx-pro-6000-vws)
G2 (NVIDIA L4)
(nvidia-l4)
(nvidia-l4-vws)

Los siguientes modelos de GPU se pueden conectar a tipos de máquinas de uso general N1:

NVIDIA T4
(nvidia-tesla-t4)
(nvidia-tesla-t4-vws)
NVIDIA P4
(nvidia-tesla-p4)
(nvidia-tesla-p4-vws)
NVIDIA V100
(nvidia-tesla-v100)
NVIDIA P100
(nvidia-tesla-p100)
(nvidia-tesla-p100-vws)

GPU en VM Spot

Puedes agregar GPU a tus VM Spot a precios puntuales más bajos para las GPU. Las GPU conectadas a las VM Spot funcionan como las GPU normales, pero persisten solo durante la vida útil de la VM. Las VM Spot con GPU siguen el mismo proceso de interrupción que todas las VM Spot.

Durante los eventos de mantenimiento, las VM Spot con GPU se interrumpen de forma predeterminada y no se pueden reiniciar automáticamente. Si deseas volver a crear tus VM después de que hayan sido interrumpidas, usa un grupo de instancias administrado. Los grupos de instancias administrados recrean tus instancias si están disponibles los recursos de CPU virtuales, memoria y GPU.

Si deseas recibir una advertencia antes de que se interrumpan tus VM o si deseas configurarlas para que se reinicien de forma automática después de un evento de mantenimiento, usa una VM estándar con una GPU. Para las VM estándar con GPU, Compute Engine proporciona un aviso con una hora de anticipación antes de la interrupción.

Compute Engine no te cobra por las GPU si tus VM son interrumpibles durante el primer minuto después de que comienzan a ejecutarse.

Para aprender a crear Spot VM con GPU conectadas, consulta Crea una VM con GPU conectadas y Crea Spot VM. Por ejemplo, consulta Crea una instancia A3 Ultra o A4 con VM Spot.

GPU en instancias con tiempos de ejecución predefinidos

Las instancias que usan el modelo de aprovisionamiento estándar , por lo general, no pueden usar cuotas de asignación interrumpibles. Las cuotas interrumpibles son para cargas de trabajo temporales y suelen estar más disponibles. Si tu proyecto no tiene cuota interrumpible y nunca la solicitaste, todas las instancias de tu proyecto consumen cuotas de asignación estándar.

Si solicitas una cuota de asignación interrumpible, las instancias que usan el modelo de aprovisionamiento estándar deben cumplir con todos los siguientes criterios para consumir la cuota de asignación interrumpible:

Las instancias tienen GPU conectadas.
Las instancias están configuradas para borrarse automáticamente después de un tiempo de ejecución predefinido a través del campo maxRunDuration o terminationTime. Para obtener más información, consulta lo siguiente:
- Limita el tiempo de ejecución de una instancia.
- Limita el tiempo de ejecución de las instancias en un MIG.
La instancia no puede consumir reservas. Para obtener más información, consulta Evita que las instancias de procesamiento consuman reservas.

Cuando consumes asignación interrumpible para cargas de trabajo de GPU con plazos determinados, puedes beneficiarte del tiempo de ejecución ininterrumpido y de la alta disponibilidad de la cuota de asignación interrumpible. Para obtener más información, consulta Cuotas interrumpibles.

GPU y Confidential VMs

Puedes usar una GPU con una instancia de Confidential VM que use Intel TDX en la serie de máquinas A3. Para obtener más información, consulta Configuraciones compatibles con Confidential VM . Para aprender a crear una instancia de Confidential VM con GPU, consulta Crea una instancia de Confidential VM con GPU.

GPU y almacenamiento en bloque

Cuando creas una instancia con un tipo de máquina de GPU, puedes agregar almacenamiento en bloque persistente o temporal a la instancia. Para almacenar datos no transitorios, usa almacenamiento en bloque persistente, como Hyperdisk o Persistent Disk ya que estos discos son independientes del ciclo de vida de la instancia. Los datos del almacenamiento persistente se pueden conservar incluso después de borrar la instancia.

Para el almacenamiento o las memorias caché temporales, usa el almacenamiento en bloque temporal agregando discos SSD locales cuando crees la instancia.

Almacenamiento en bloque persistente con volúmenes de Persistent Disk y Hyperdisk

Puedes conectar Persistent Disk y seleccionar Hyperdisk volúmenes de Hyperdisk a instancias habilitadas para GPU.

Para las cargas de trabajo de aprendizaje automático (AA) y de entrega, usa volúmenes de Hyperdisk ML, que ofrecen una alta capacidad de procesamiento y tiempos de carga de datos más cortos. Hyperdisk ML es una opción más rentable para las cargas de trabajo de AA, ya que ofrece tiempos de inactividad de GPU más bajos.

Los volúmenes de Hyperdisk ML proporcionan compatibilidad de conexión múltiple de solo lectura, por lo que puedes conectar el mismo disco a varias instancias, lo que le da a cada instancia acceso a los mismos datos.

Para obtener más información sobre los tipos de discos compatibles con las series de máquinas que admiten GPU, consulta las páginas de las series de máquinas N1 y optimizadas para aceleradores.

Discos SSD locales

Los discos SSD locales proporcionan almacenamiento rápido y temporal para el almacenamiento en caché, el procesamiento de datos o cualquier otro dato transitorio. Los discos SSD locales proporcionan almacenamiento rápido porque están conectados físicamente al servidor que aloja tu instancia. Los discos SSD locales proporcionan almacenamiento temporal porque la instancia pierde datos si se reinicia.

Evita almacenar datos con requisitos de persistencia sólidos en discos SSD locales. Para almacenar datos no transitorios, usa almacenamiento persistente en su lugar.

Si detienes manualmente una instancia con una GPU, puedes conservar los datos de las SSD locales, con ciertas restricciones. Consulta la documentación de las SSD locales para obtener más detalles.

Para obtener información sobre la compatibilidad regional con las SSD locales con tipos de GPU, consulta Disponibilidad de SSD locales.

GPU y mantenimiento del host

Compute Engine siempre detiene las instancias con GPU conectadas cuando realiza eventos de mantenimiento en el servidor host. Si la instancia tiene discos SSD locales conectados, la instancia pierde los datos de las SSD locales después de que se detiene.

Para obtener información sobre cómo controlar los eventos de mantenimiento, consulta Controla eventos de mantenimiento del host de GPU.

Reserva capacidad de GPU

Las reservas proporcionan una alta garantía de capacidad para los recursos específicos de la zona, incluidas las GPU. Puedes usar las reservas para asegurarte de tener GPU disponibles cuando necesites usarlas para aplicaciones de alto rendimiento. Para conocer los diferentes métodos para reservar recursos específicos de la zona en Compute Engine, consulta Elige un tipo de reserva.

También se requieren reservas cuando deseas recibir descuentos por compromiso de uso (CUD) para el uso de GPU.

Precios de GPU

Si solicitas a Compute Engine que aprovisione GPU con el modelo de aprovisionamiento puntual, de inicio flexible o vinculado a la reserva, obtienes las GPU a precios con descuento, según el tipo de GPU. También puedes recibir descuentos por compromiso de uso o descuentos por uso continuo (solo con VMs N1) por el uso de GPU.

Para conocer los precios por hora y por mes de las GPU, consulta la página de precios de GPU.

Descuentos por compromiso de uso para GPU

Los compromisos basados en recursos proporcionan grandes descuentos para los recursos de Compute Engine a cambio de comprometerte a usar los recursos en una región específica durante al menos un año. Por lo general, compras compromisos para recursos como CPU virtuales, memoria, GPU y discos SSD locales para usarlos con una serie de máquinas específica. Cuando usas tus recursos, recibes el uso de recursos aptos a precios con descuento. Para obtener más información sobre estos descuentos, consulta Descuentos por compromiso de uso basados en recursos.

Para comprar un compromiso con GPU, también debes reservar las GPU y adjuntar las reservas a tu compromiso. Para obtener más información sobre cómo adjuntar reservas a compromisos, consulta Adjunta reservas a compromisos basados en recursos.

Descuentos por uso continuo para GPU

Las instancias que usan tipos de máquinas N1 con GPU conectadas reciben descuentos por uso continuo (SUD), de manera similar a las CPU virtuales. Cuando seleccionas una GPU para una estación de trabajo virtual, Compute Engine agrega automáticamente una licencia de estación de trabajo virtual NVIDIA RTX a tu instancia.

Restricciones y limitaciones de GPU

Para las instancias que tienen GPU conectadas, se aplican las siguientes restricciones y limitaciones:

Solo los tipos de máquinas optimizados para aceleradores (A4X Max, A4X, A4, A3, A2, G4 y G2) y los tipos de máquinas N1 de uso general admiten GPU.
Para proteger los sistemas y usuarios de Compute Engine, los proyectos nuevos tienen una cuota global de GPU que limita la cantidad total de GPU que puedes crear en cualquier zona compatible. Cuando solicitas una cuota de GPU, debes especificar una cuota de los modelos de GPU que quieres crear en cada región, así como indicar la cuota global con la cantidad total de GPU de los tipos de todas las zonas.
Las instancias con una o más GPU tienen un número máximo de CPU virtuales para cada GPU que agregues a la instancia. Si deseas ver los rangos de CPU virtuales y memoria disponibles para diferentes configuraciones de GPU, consulta la lista de GPU.
Las GPU requieren controladores de dispositivo para funcionar correctamente. Las GPU de NVIDIA que se ejecutan en Compute Engine deben usar una versión de controlador mínima. Para obtener más información sobre las versiones de controlador, consulta Versiones de controladores NVIDIA necesarias.
El ANS de Compute Engine cubre las instancias con un modelo de GPU conectado solo si ese modelo de GPU adjunto está en fase de disponibilidad general.

En el caso de las regiones que tienen varias zonas, el ANS de Compute Engine cubre la instancia solo si el modelo de GPU está disponible en más de una zona dentro de esa región. Para obtener información sobre los modelos de GPU por región, consulta Ubicaciones de GPU.
Compute Engine admite un usuario simultáneo por GPU o vGPU.
Consulta también las limitaciones de cada tipo de máquina con GPU conectadas.

Próximos pasos

Aprende a crear instancias con GPU conectadas.
Aprende a agregar o quitar GPU.
Aprende a crear una instancia de Confidential VM con una GPU conectada.