이 문서에서는 Compute Engine에서 실행되는 GPU 가상 머신(VM) 인스턴스의 기능과 제한사항에 대해 설명합니다.
Compute Engine에서 특정 워크로드를 가속하려면 GPU가 연결된 가속기 최적화 인스턴스를 배포하거나 N1 범용 인스턴스에 GPU를 연결하면 됩니다. Compute Engine은 패스 스루 모드의 인스턴스에 GPU를 제공합니다. 패스 스루 모드를 사용하면 인스턴스가 GPU와 메모리를 직접 제어할 수 있습니다.
AI 하이퍼컴퓨터에서 일부 GPU 머신 유형을 사용할 수도 있습니다. AI 하이퍼컴퓨터는 인공지능(AI) 및 머신러닝(ML) 워크로드를 지원하도록 최적화된 슈퍼컴퓨팅 시스템입니다. 이 옵션은 Google Kubernetes Engine(GKE) 및 Slurm 스케줄러와 통합된 밀집적으로 할당된 성능 최적화 인프라를 생성하는 데 적합합니다.
지원되는 머신 유형
Compute Engine은 다양한 워크로드를 지원하기 위해 여러 머신 유형을 제공합니다.
일부 머신 유형은 NVIDIA RTX 가상 워크스테이션(vWS)을 지원합니다. NVIDIA RTX 가상 워크스테이션을 사용하는 인스턴스를 만들면 Compute Engine이 자동으로 vWS 라이선스를 추가합니다. 가상 워크스테이션 가격 책정에 대한 자세한 내용은 GPU 가격 책정 페이지를 참조하세요.
| GPU 머신 유형 | |||
|---|---|---|---|
| AI 및 ML 워크로드 | 그래픽 및 시각화 | 기타 GPU 워크로드 | |
| 
    가속기 최적화 A 시리즈 머신 유형은 고성능 컴퓨팅(HPC), 인공지능(AI), 머신러닝(ML) 워크로드를 위해 설계되었습니다.
     이후 세대 A 시리즈는 대규모 가속기 클러스터가 포함된 파운데이션 모델을 사전 학습하고 미세 조정하는 데 이상적이며, A2 시리즈는 소규모 모델 학습 및 단일 호스트 추론에 사용할 수 있습니다. 이러한 머신 유형의 경우 GPU 모델이 인스턴스에 자동으로 연결됩니다.  | 
    
    가속기 최적화 G 시리즈 머신 유형은 NVIDIA Omniverse 시뮬레이션 워크로드, 그래픽 집약적 애플리케이션, 동영상 트랜스코딩, 가상 데스크톱과 같은 워크로드에 적합합니다. 이러한 머신 유형은 NVIDIA RTX 가상 워크스테이션(vWS)을 지원합니다.
     G 시리즈는 더 작은 모델을 학습시키고 단일 호스트 추론에도 사용할 수 있습니다. 이러한 머신 유형의 경우 GPU 모델이 인스턴스에 자동으로 연결됩니다.  | 
    
     N1 공유 코어(  | 
    |
        
  | 
      다음 GPU 모델을 N1 범용 머신 유형에 연결할 수 있습니다.
        
  | 
    ||
Spot VM의 GPU
더 낮은 GPU 스팟 가격으로 Spot VM에 GPU를 추가할 수 있습니다. Spot VM에 연결된 GPU는 일반 GPU처럼 작동하지만 VM 수명 기간 동안만 지속됩니다. GPU가 있는 Spot VM은 모든 Spot VM과 동일한 선점 프로세스를 따릅니다.
Spot VM에서 GPU에 사용할 전용 Preemptible GPU 할당량을 요청하는 것이 좋습니다. 자세한 내용은 Spot VM 할당량을 참조하세요.
유지보수 이벤트 중에 GPU가 있는 Spot VM은 기본적으로 선점되며 자동으로 재시작할 수 없습니다. VM이 선점된 후 VM을 다시 만들고 싶다면 관리형 인스턴스 그룹을 사용하세요. 관리형 인스턴스 그룹은 vCPU, 메모리, GPU 리소스가 있는 경우 VM 인스턴스를 다시 생성합니다.
VM이 선점되기 전 경고를 표시하거나 유지보수 이벤트 후 자동으로 재시작되도록 VM을 구성하려면 GPU가 있는 표준 VM을 사용하세요. GPU가 있는 표준 VM의 경우 Compute Engine이 선점 전 1시간 사전 알림을 제공합니다.
Compute Engine은 실행이 시작된 후 1분 내에 선점된 VM에 대해서는 GPU 비용을 청구하지 않습니다.
GPU가 연결된 Spot VM을 만드는 방법은 GPU가 연결된 VM 만들기 및 Spot VM 만들기를 참조하세요. 예를 들어 Spot VM을 사용하여 A3 Ultra 또는 A4 인스턴스 만들기를 참조하세요.
실행 시간이 사전 정의된 인스턴스의 GPU
표준 프로비저닝 모델을 사용하는 인스턴스는 일반적으로 선점형 배정 할당량을 사용할 수 없습니다. 선점형 할당량은 임시 워크로드를 위한 것이며 일반적으로 가용성이 더 높습니다. 프로젝트에 선점형 할당량이 없고 선점형 할당량을 요청한 적이 없는 경우 프로젝트의 모든 인스턴스가 표준 배정 할당량을 사용합니다.
선점형 배정 할당량을 요청하는 경우 표준 프로비저닝 모델을 사용하는 인스턴스는 선점형 배정 할당량을 사용하기 위해 다음 기준을 모두 충족해야 합니다.
- 인스턴스에 GPU가 연결되어 있습니다.
 - 인스턴스가 
maxRunDuration또는terminationTime필드를 통해 사전 정의된 실행 시간 후 자동으로 삭제되도록 구성되어 있습니다. 자세한 내용은 다음을 참조하세요. - 인스턴스가 예약을 사용할 수 없습니다. 자세한 내용은 컴퓨팅 인스턴스의 예약 사용 방지를 참조하세요.
 
시간 제한이 있는 GPU 워크로드에 선점형 할당을 사용하면 중단 없는 실행 시간과 선점형 배정 할당량의 높은 확보 가능성 모두를 활용할 수 있습니다. 자세한 내용은 선점형 할당량을 참조하세요.
GPU 및 컨피덴셜 VM
A3 머신 시리즈에서 Intel TDX를 사용하는 컨피덴셜 VM 인스턴스와 함께 GPU를 사용할 수 있습니다. 자세한 내용은 컨피덴셜 VM 지원되는 구성을 참조하세요. GPU를 사용하여 컨피덴셜 VM 인스턴스를 만드는 방법은 GPU를 사용하여 컨피덴셜 VM 인스턴스 만들기를 참조하세요.
GPU 및 블록 스토리지
GPU 머신 유형을 사용하여 인스턴스를 만들 때 인스턴스에 영구 또는 임시 블록 스토리지를 추가할 수 있습니다. 임시가 아닌 데이터를 저장하려면 이러한 디스크가 인스턴스의 수명 주기와 독립적이므로 Hyperdisk 또는 Persistent Disk와 같은 영구 블록 스토리지를 사용합니다. 영구 스토리지의 데이터는 인스턴스를 삭제한 후에도 유지될 수 있습니다.
임시 스크래치 스토리지 또는 캐시의 경우 인스턴스를 만들 때 로컬 SSD 디스크를 추가하여 임시 블록 스토리지를 사용합니다.
Persistent Disk 및 Hyperdisk 볼륨이 있는 영구 블록 스토리지
GPU가 사용 설정된 인스턴스에 Persistent Disk를 연결하고 Hyperdisk 볼륨을 선택할 수 있습니다.
머신러닝(ML) 및 서빙 워크로드의 경우 높은 처리량과 짧은 데이터 로드 시간을 제공하는 Hyperdisk ML 볼륨을 사용하세요. Hyperdisk ML은 GPU 유휴 시간이 더 짧기 때문에 ML 워크로드에 더 비용 효율적인 옵션입니다.
Hyperdisk ML 볼륨은 읽기 전용 다중 연결 지원을 제공하므로 동일한 디스크를 여러 인스턴스에 연결하여 각 인스턴스에 동일한 데이터에 대한 액세스 권한을 부여할 수 있습니다.
GPU를 지원하는 머신 시리즈에 지원되는 디스크 유형에 대한 자세한 내용은 N1 및 가속기 최적화 머신 시리즈 페이지를 참조하세요.
로컬 SSD 디스크
로컬 SSD 디스크는 캐싱, 데이터 처리 또는 기타 일시적인 데이터를 위한 빠른 임시 스토리지를 제공합니다. 로컬 SSD 디스크는 인스턴스를 호스팅하는 서버에 물리적으로 연결되어 있으므로 빠른 스토리지를 제공합니다. 인스턴스가 다시 시작되면 인스턴스의 데이터가 손실되므로 로컬 SSD 디스크는 임시 스토리지를 제공합니다.
강력한 지속성 요구사항이 있는 데이터를 로컬 SSD 디스크에 저장하면 안 됩니다. 임시가 아닌 데이터를 저장하려면 대신 영구 스토리지를 사용합니다.
GPU가 있는 인스턴스를 수동으로 중지하는 경우 몇 가지 제한사항이 있지만 로컬 SSD 데이터를 보존할 수 있습니다. 자세한 내용은 로컬 SSD 문서를 참조하세요.
GPU 유형의 로컬 SSD에 대한 리전별 지원은 GPU 리전 및 영역별 로컬 SSD 가용성을 참조하세요.
GPU 및 호스트 유지보수
Compute Engine은 호스트 서버에서 유지보수 이벤트를 수행할 때 연결된 GPU가 있는 인스턴스를 항상 중지합니다. 인스턴스에 로컬 SSD 디스크가 연결된 경우 인스턴스가 중지되면 로컬 SSD 데이터가 손실됩니다.
유지보수 이벤트 처리 방법은 GPU 호스트 유지보수 이벤트 처리를 참조하세요.
GPU 용량 예약
예약은 GPU를 비롯한 영역별 리소스의 용량에 대한 높은 확신을 제공합니다. 예약을 사용하면 성능 집약적인 애플리케이션에 GPU를 사용해야 할 때 GPU를 사용할 수 있습니다. Compute Engine에서 영역별 리소스를 예약하는 다양한 방법은 예약 유형 선택을 참조하세요.
GPU에 약정 사용 할인(CUD)을 받으려는 경우에도 예약이 필요합니다.
GPU 가격 책정
Compute Engine에 스팟, flex-start 또는 예약 범위 프로비저닝 모델을 사용하여 GPU를 프로비저닝하도록 요청하면 GPU 유형에 따라 할인된 가격으로 GPU를 사용할 수 있습니다. GPU 사용량에 대해 약정 사용 할인이나 지속 사용 할인(N1 VM에만 해당)을 받을 수도 있습니다.
GPU의 시간별 및 월별 가격 책정은 GPU 가격 책정 페이지를 참조하세요.
GPU의 약정 사용 할인
리소스 기반 약정은 특정 리전에서 리소스를 1년 이상 사용하겠다는 약속의 대가로 Compute Engine 리소스에 대한 대폭 할인을 제공합니다. 일반적으로 특정 머신 시리즈에서 사용할 vCPU, 메모리, GPU, 로컬 SSD 디스크와 같은 리소스에 대한 약정을 구매합니다. 리소스를 사용하면 할인된 가격으로 적격 리소스 사용량을 이용할 수 있습니다. 이러한 할인에 대해 자세히 알아보려면 리소스 기반 약정 사용 할인을 참조하세요.
GPU가 포함된 약정을 구매하려면 GPU를 예약하고 예약을 약정에 연결해야 합니다. 약정에 예약을 연결하는 방법에 대한 자세한 내용은 리소스 기반 약정에 예약 연결을 참조하세요.
GPU의 지속 사용 할인
GPU가 연결된 N1 머신 유형을 사용하는 인스턴스에는 vCPU와 마찬가지로 지속 사용 할인(SUD)이 적용됩니다. 가상 워크스테이션용 GPU를 선택하면 Compute Engine이 자동으로 NVIDIA RTX 가상 워크스테이션 라이선스를 인스턴스에 추가합니다.
GPU 제한사항
연결된 GPU가 있는 인스턴스의 경우 다음 제한사항이 적용됩니다.
가속기 최적화(A4X, A4, A3, A2, G4, G2) 및 범용 N1 머신 유형만 GPU를 지원합니다.
Compute Engine 시스템과 사용자를 보호하기 위해 새 프로젝트에는 지원되는 모든 영역에서 생성할 수 있는 총 GPU 수를 제한하는 글로벌 GPU 할당량이 적용됩니다. GPU 할당량을 요청하는 경우 각 리전에 생성하려는 GPU 모델의 할당량 외에도 전 영역 내 모든 유형의 총 GPU에 적용할 전역 할당량을 추가로 요청해야 합니다.
1개 이상의 GPU가 있는 인스턴스는 인스턴스에 추가하는 각 GPU에 대해 최대 개수의 vCPU를 포함합니다. 여러 GPU 구성에 따라 사용 가능한 vCPU 및 메모리 범위를 보려면 GPU 목록을 참조하세요.
GPU가 올바르게 작동하려면 기기 드라이버가 필요합니다. Compute Engine에서 실행되는 NVIDIA GPU는 최소 드라이버 버전을 사용해야 합니다. 드라이버 버전에 대한 상세 설명은 필요한 NVIDIA 드라이버 버전을 참조하세요.
Compute Engine SLA는 연결된 GPU 모델이 정식 버전으로 제공되는 경우에만 GPU 모델이 연결된 인스턴스에 적용됩니다.
리전에 여러 영역이 있는 경우 Compute Engine SLA는 GPU 모델이 해당 리전 내의 두 개 이상의 영역에서 제공되는 경우에만 인스턴스에 적용됩니다. 리전별 GPU 모델은 GPU 리전 및 영역을 참조하세요.
Compute Engine은 GPU당 동시 사용자 1명을 지원합니다.
GPU가 연결된 각 머신 유형의 제한사항도 참조하세요.
다음 단계
- GPU가 연결된 인스턴스를 만드는 방법 알아보기
 - GPU 추가 또는 삭제 방법 알아보기
 - 연결된 GPU가 있는 컨피덴셜 VM 인스턴스를 만드는 방법을 알아보세요.