멀티 호스트 TPU 슬라이스로 MIG 만들기

이 문서에서는 멀티 호스트 TPU 슬라이스를 구성하는 관리형 인스턴스 그룹 (MIG)을 만드는 방법을 설명합니다.

시작하기 전에

기본 요건

멀티 호스트 TPU 슬라이스 만들기를 진행하기 전에 다음을 수행해야 합니다.

  1. TPU 버전 선택: 워크로드에 적합한 TPU 버전을 선택합니다. 워크로드 유형별 TPU 버전 목록은 워크로드 유형별 권장 TPU 버전을 참조하세요.

  2. 선호하는 위치에서 TPU 가용성 확인: TPU는 특정 리전에서 사용할 수 있습니다. Cloud de Confiance by S3NS TPU 버전을 사용하려면 선호하는 리전에서 해당 버전을 사용할 수 있는지 확인합니다. TPU 위치 목록은 TPU 가용성을 참조하세요.

  3. 프로젝트에 충분한 TPU 할당량이 있는지 확인: 주문형 또는 스팟 VM으로 멀티 호스트 TPU 슬라이스를 만드는 경우 사용하려는 리전에서 사용 가능한 TPU 할당량이 충분해야 합니다. TPU 예약을 소비하는 멀티 호스트 TPU 슬라이스를 만들 때는 할당량이 예약 생성 시 사용되므로 TPU 할당량이 필요하지 않습니다. TPU 할당량 이름 목록은 TPU 할당량을 참조하고 할당량을 보는 방법은 할당량 보기 및 관리를 참조하세요.

  4. TPU 소비 옵션 선택: 워크로드, 기간, 비용 요구사항에 가장 적합한 소비 옵션을 선택합니다. TPU 버전별 소비 옵션 가용성 목록은 TPU 소비 옵션을 참조하세요.

  5. 토폴로지 선택: 선택한 TPU 버전에서 지원되는 토폴로지를 선택합니다. 각 TPU 버전에서 사용할 수 있는 토폴로지 목록은 TPU 토폴로지를 참조하세요.

멀티 호스트 TPU 슬라이스로 MIG 만들기

  1. 인스턴스 템플릿을 만듭니다.
  2. 워크로드 정책을 만듭니다.
  3. MIG를 만듭니다.

인스턴스 템플릿 만들기

인스턴스 템플릿을 만드는 명령어는 사용 중인 소비 옵션(주문형, 스팟, 예약에 따름, flex-start)에 따라 다릅니다. 소비 옵션에 대한 자세한 내용은 VM 프로비저닝 모델 정보를 참조하세요.

주문형 TPU VM의 인스턴스 템플릿 만들기

다음 명령어는 주문형 소비 옵션을 사용하여 인스턴스 템플릿을 만듭니다.

gcloud compute instance-templates create INSTANCE_TEMPLATE_NAME \
  --machine-type=MACHINE_TYPE \
  --maintenance-policy=TERMINATE \
  --image-family=IMAGE_FAMILY \
  --image-project=IMAGE_PROJECT

다음 자리표시자를 바꿉니다.

  • INSTANCE_TEMPLATE_NAME: 인스턴스 템플릿의 이름입니다.
  • MACHINE_TYPE: TPU VM의 머신 유형 입니다(예: ct6e-standard-8t).
  • IMAGE_FAMILY: TPU VM의 OS 이미지 계열 입니다. 특정 OS 버전을 설치하려면 --image 플래그를 사용합니다. OS 이미지에 대한 자세한 내용은 OS 이미지를 참조하세요.
  • IMAGE_PROJECT: OS 이미지가 포함된 프로젝트입니다. TPU 이미지의 경우 ubuntu-os-accelerator-images입니다.

TPU 스팟 VM의 인스턴스 템플릿 만들기

다음 명령어는 스팟 소비 옵션을 사용하여 인스턴스 템플릿을 만듭니다.

gcloud compute instance-templates create INSTANCE_TEMPLATE_NAME \
  --machine-type=MACHINE_TYPE \
  --maintenance-policy=TERMINATE \
  --instance-termination-action=STOP \
  --provisioning-model=SPOT \
  --image-family=IMAGE_FAMILY \
  --image-project=IMAGE_PROJECT

다음 자리표시자를 바꿉니다.

  • INSTANCE_TEMPLATE_NAME: 인스턴스 템플릿의 이름입니다.
  • MACHINE_TYPE: TPU VM의 머신 유형 입니다(예: ct6e-standard-8t).
  • IMAGE_FAMILY: TPU VM의 OS 이미지 계열 입니다. 특정 OS 버전을 설치하려면 --image 플래그를 사용합니다. OS 이미지에 대한 자세한 내용은 OS 이미지를 참조하세요.
  • IMAGE_PROJECT: OS 이미지가 포함된 프로젝트입니다. TPU 이미지의 경우 ubuntu-os-accelerator-images입니다.

TPU 예약에 따름 VM의 인스턴스 템플릿 만들기

다음 명령어는 예약에 따름 소비 옵션을 사용하여 인스턴스 템플릿을 만듭니다.

gcloud compute instance-templates create INSTANCE_TEMPLATE_NAME \
  --machine-type=MACHINE_TYPE \
  --maintenance-policy=TERMINATE \
  --instance-termination-action=DELETE \
  --reservation-affinity=specific \
  --provisioning-model=reservation-bound \
  --reservation=RESERVATION_NAME \
  --image-family=IMAGE_FAMILY \
  --image-project=IMAGE_PROJECT

다음 자리표시자를 바꿉니다.

  • INSTANCE_TEMPLATE_NAME: 인스턴스 템플릿의 이름입니다.
  • MACHINE_TYPE: TPU VM의 머신 유형 입니다(예: ct6e-standard-8t).
  • RESERVATION_NAME: 소비할 특정 예약의 이름입니다.
  • IMAGE_FAMILY: TPU VM의 OS 이미지 계열 입니다. 특정 OS 버전을 설치하려면 --image 플래그를 사용합니다. OS 이미지에 대한 자세한 내용은 OS 이미지를 참조하세요.
  • IMAGE_PROJECT: OS 이미지가 포함된 프로젝트입니다. TPU 이미지의 경우 ubuntu-os-accelerator-images입니다.

TPU flex-start VM의 인스턴스 템플릿 만들기

다음 명령어는 flex-start 소비 옵션을 사용하여 인스턴스 템플릿을 만듭니다.

gcloud compute instance-templates create INSTANCE_TEMPLATE_NAME \
    --machine-type=MACHINE_TYPE \
    --maintenance-policy=TERMINATE \
    --instance-termination-action=DELETE \
    --provisioning-model=FLEX_START \
    --max-run-duration=DURATION \
    --image-family=IMAGE_FAMILY \
    --image-project=IMAGE_PROJECT

다음 자리표시자를 바꿉니다.

  • INSTANCE_TEMPLATE_NAME: 인스턴스 템플릿의 이름입니다.
  • MACHINE_TYPE: TPU VM의 머신 유형 입니다(예: ct6e-standard-8t).
  • DURATION: TPU VM 을 실행할 수 있는 최대 기간입니다.
  • IMAGE_FAMILY: TPU VM의 OS 이미지 계열 입니다. 특정 OS 버전을 설치하려면 --image 플래그를 사용합니다. OS 이미지에 대한 자세한 내용은 OS 이미지를 참조하세요.
  • IMAGE_PROJECT: OS 이미지가 포함된 프로젝트입니다. TPU 이미지의 경우 ubuntu-os-accelerator-images입니다.

워크로드 정책 만들기

accelerator-topology 매개변수 (예: 4x4, 8x8 또는 4x4x4)로 워크로드 정책을 만들어야 합니다. 가속기 토폴로지는 인스턴스를 단일의 상호 연결된 슬라이스로 처리하도록 MIG를 구성합니다.

다음 명령어는 워크로드 정책을 만듭니다.

gcloud compute resource-policies create workload-policy WORKLOAD_POLICY_NAME \
  --type=high-throughput \
  --accelerator-topology=TOPOLOGY \
  --region=REGION

다음 자리표시자를 바꿉니다.

  • WORKLOAD_POLICY_NAME: 워크로드 정책의 이름입니다.
  • TOPOLOGY: TPU VM의 토폴로지입니다(예: 4x4x8). TPU 버전별 토폴로지에 대한 자세한 내용은 TPU 토폴로지를 참조하세요.
  • REGION: 워크로드 정책의 리전입니다.

MIG 만들기

다음과 같이 gcloud compute instance-groups managed create 명령어 를 사용하여 영역 MIG 또는 리전 MIG를 만듭니다.

  • 멀티 호스트 TPU 슬라이스가 포함된 영역 MIG를 만들려면 다음 명령어를 사용합니다.

     gcloud compute instance-groups managed create MIG_NAME \
        --size=MIG_SIZE \
        --target-size-policy-mode=bulk \
        --template=INSTANCE_TEMPLATE_URL \
        --zone=ZONE \
        --default-action-on-vm-failure=do-nothing \
        --workload-policy=WORKLOAD_POLICY_URL
    
  • 멀티 호스트 TPU 슬라이스가 포함된 리전 MIG를 만들려면 다음 명령어를 사용합니다.

     gcloud compute instance-groups managed create MIG_NAME \
        --size=MIG_SIZE \
        --target-size-policy-mode=bulk \
        --template=INSTANCE_TEMPLATE_URL \
        --region=REGION \
        --default-action-on-vm-failure=do-nothing \
        --workload-policy=WORKLOAD_POLICY_URL \
        --target-distribution-shape=any-single-zone \
        --instance-redistribution-type=none
    

다음 자리표시자를 바꿉니다.

  • MIG_NAME: MIG의 이름입니다.
  • MIG_SIZE: MIG의 VM 수입니다.
  • INSTANCE_TEMPLATE_URL: MIG에서 인스턴스를 만드는 데 사용할 인스턴스 템플릿의 URL입니다. URL에는 인스턴스 템플릿의 ID 또는 이름이 포함될 수 있습니다. 다음 값 중 하나를 지정합니다.
    • 리전 인스턴스 템플릿의 경우: projects/PROJECT_ID/regions/REGION/instanceTemplates/INSTANCE_TEMPLATE_ID
    • 전역 인스턴스 템플릿의 경우: INSTANCE_TEMPLATE_ID
  • ZONE: MIG의 영역입니다.
  • REGION: MIG의 리전입니다.
  • WORKLOAD_POLICY_URL: MIG에서 인스턴스를 만드는 데 사용할 워크로드 정책의 URL입니다. 예를 들면: projects/PROJECT_ID/regions/WORKLOAD_POLICY_REGION/resourcePolicies/WORKLOAD_POLICY_NAME

MIG에서 커스텀 이름으로 VM 만들기

각 VM에 커스텀 이름을 지정하여 MIG에서 VM을 만들 수 있습니다. 이는 디버깅 및 인스턴스가 특정 순서로 생성되도록 하는 데 유용합니다.

멀티 호스트 TPU 슬라이스가 포함된 MIG는 대상 크기 정책의 일괄 모드를 사용합니다. 이러한 MIG에서 커스텀 이름으로 VM을 만들 때는 다음이 적용됩니다.

다음 REST API 메서드 중 하나를 사용하여 커스텀 이름으로 VM을 만듭니다.

  • 영역 MIG의 경우 instanceGroupManagers.createInstances를 사용합니다.

     POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instanceGroupManagers/MIG_NAME/createInstances
     {
       "instances": [
         {
           "name": "INSTANCE_NAME_1"
         },
         {
           "name": "INSTANCE_NAME_2"
         },
         ...
       ]
     }
     

  • 리전 MIG의 경우 regionInstanceGroupManagers.createInstances를 사용합니다.

     POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/regions/REGION/instanceGroupManagers/MIG_NAME/createInstances
     {
       "instances": [
         {
           "name": "INSTANCE_NAME_1"
         },
         {
           "name": "INSTANCE_NAME_2"
         },
         ...
       ]
     }
     

다음 자리표시자를 바꿉니다.

  • PROJECT_ID: MIG 가 있는 프로젝트의 ID입니다.
  • ZONE: MIG의 영역입니다.
  • REGION: MIG의 리전입니다.
  • INSTANCE_NAME_1,2,..: 지정된 MIG에 추가할 VM의 이름입니다.

다음 단계