이 페이지의 일부 또는 모든 정보는 S3NS의 Cloud de Confiance에 적용되지 않을 수 있습니다. 자세한 내용은 Google Cloud와의 차이점을 참조하세요.

Google은 AI 기술을 사용하여 콘텐츠를 사용자의 기본 언어로 번역합니다. AI 번역에는 오류가 있을 수 있습니다.

학습 및 추론 워크로드를 실행하는 노드의 호스트 유지보수 실행

Autopilot Standard

이 문서에서는 Google Kubernetes Engine (GKE) 클러스터의 노드에 대한 기본 Compute Engine 인스턴스의 호스트 유지보수를 수행하는 방법을 설명합니다. GPU 및 TPU가 있는 인스턴스를 비롯하여 라이브 마이그레이션되지 않는 특정 유형의 Compute Engine 인스턴스에 대해서만 이 유지보수를 적극적으로 관리하면 됩니다. 이 문서에 설명된 전략은 학습 및 추론 워크로드에 적합합니다. 개별 노드에 대해서만 호스트 유지보수 를 수동으로 수행해야 하거나 워크로드가 자동 호스트 유지보수를 허용할 수 있는 경우 GKE에서 호스트 유지보수를 수행하는 방법 이해를 참조하세요.

이러한 전략은 노드 그룹에 대한 호스트 유지보수를 수행하고 선택적으로 GKE 클러스터 업그레이드를 시작합니다.

학습 워크로드의 노드와 같이 단일 다운타임 기간을 가질 수 있는 워크로드의 노드에는 병렬 전략을 사용합니다. 추론 워크로드의 노드와 같이 대부분의 리소스 가용성을 유지하면서 다운타임 배치를 가질 수 있는 워크로드의 노드에는 순차적 전략을 사용합니다.

병렬 전략을 사용하여 학습 워크로드의 노드 업데이트

이 전략은 가속기를 사용하는 노드 그룹에 대해 동시에 변경사항을 수행합니다. 이 전략은 학습 워크로드에 사용할 수 있습니다. 또는 그룹의 모든 노드와 해당 노드에서 실행되는 워크로드에 대해 완전한 다운타임의 단일 기간을 갖는 것이 변경사항을 수행하는 가장 중단이 적은 방법인 다른 유형의 워크로드에 사용할 수 있습니다.

이 전략은 다음과 같은 주요 단계를 따릅니다.

워크로드 중지: 노드 풀을 선택하고 노드 풀에서 실행되는 워크로드를 중지하거나 워크로드를 계속 사용 가능한 다른 노드로 이동합니다.
호스트 유지보수 트리거: 선택한 모든 노드에 유지보수 라벨을 동시에 적용하고 모든 노드에서 프로세스가 완료될 때까지 기다립니다.
GKE 버전 업그레이드: 노드의 GKE 버전을 변경합니다.
워크로드 다시 시작: 모든 호스트 유지보수 및 업그레이드가 완료되면 워크로드를 다시 시작합니다.

제공된 안내는 단일 노드 풀에 대한 변경사항을 수행합니다. 하지만 단계를 조정하여 여러 노드 풀에 대한 변경사항을 동시에 수행할 수 있습니다. 이러한 단계를 시작하기 전에 이 워크로드가 이러한 노드에서 실행될 필요가 없는 시간이 몇 시간 이상 있는지 확인합니다.

기본 Compute Engine 인스턴스와 GKE 노드 모두에 대한 중요한 변경사항을 수신하는 동안 중단을 최소화하려면 이 다운타임 기간을 사용하여 호스트 유지보수와 GKE 버전 업그레이드를 모두 수행합니다. 하지만 GKE 노드의 버전을 업그레이드하지 않으려면 호스트 유지보수만 수행할 수 있습니다.

시작하기 전에 고려해야 할 사항

시작하기 전에 다음 고려사항을 검토하세요.

워크로드 재배포 방지: PodDisruptionBudgets으로 인한 불필요한 지연을 방지하려면 모든 단계를 완료할 때까지 워크로드를 재배포하지 마세요.
중단 계획: 워크로드가 일정 기간 동안 중단될 수 있는지 확인합니다. 이러한 단계는 주로 호스트 유지보수에 필요한 시간으로 인해 완료하는 데 몇 시간이 걸립니다.

모든 노드에 대해 동시에 업데이트 수행

호스트 유지보수 및 선택적으로 GKE 버전 업그레이드를 수행하려면 다음 단계를 완료하세요.

워크로드 준비: 워크로드를 중지하거나 최근 스냅샷 또는 체크포인트를 생성했는지 확인합니다.
호스트 유지보수 시작 및 모니터링:
- 그룹화된 유지보수 예약을 사용하는 예약의 하위 블록: 해당 gcloud compute reservations 하위 명령어를 사용하여 예약, 예약 블록 또는 예약 하위 블록 전반에서 유지보수를 트리거합니다. 예를 들어 다음 명령어는 하위 블록의 유지보수를 시작합니다.
```
gcloud compute reservations sub-blocks perform-maintenance RESERVATION_NAME \
    --block-name=BLOCK_NAME \
    --sub-block-name=SUB_BLOCK_NAME \
    --zone=ZONE
```
  다음을 바꿉니다.
  - RESERVATION_NAME: 예약 이름입니다.
  - BLOCK_NAME: 예약 블록의 이름입니다.
  - SUB_BLOCK_NAME: 예약 하위 블록의 이름입니다.
  - ZONE: 예약이 있는 영역입니다.
  Compute Engine은 하위 블록의 모든 인스턴스를 동시에 드레이닝하고 업데이트하기 시작합니다. 이 프로세스는 몇 시간이 걸릴 수 있습니다.
  
  모니터링하려면 예약 리소스에서 upcomingGroupMaintenance 메타데이터 필드를 확인하여 유지보수 상태를 확인합니다. 자세한 내용은 유지보수 상태 보기를 참조하세요.
- 독립적인 유지보수 예약을 사용하는 인스턴스: 노드 풀의 노드에 cloud.google.com/perform-maintenance=true 라벨을 적용하여 주문형 인스턴스 또는 하위 블록을 사용하지 않는 예약의 유지보수를 트리거합니다.
  
  경고: 그룹화된 유지보수 예약을 사용하도록 구성된 인스턴스 (예: A4X, A4X Max, TPU v6e, TPU7x)는 긴밀하게 결합되어 있으며 단일 단위로 함께 유지보수되어야 합니다. 하위 블록 수준 유지보수를 사용해야 합니다.
```
kubectl label nodes -l cloud.google.com/gke-nodepool=NODE_POOL_NAME cloud.google.com/perform-maintenance=true --overwrite
```
  Compute Engine은 기본 인스턴스를 동시에 드레이닝하고 업데이트하기 시작합니다. 이 프로세스는 몇 시간이 걸릴 수 있습니다. 자세한 내용은 정상 종료 프로세스를 참조하세요.
  
  유지보수 상태를 모니터링하려면 노드를 확인합니다. 유지보수가 완료되면 GKE는 유지보수 라벨이 적용된 경우 이를 삭제합니다. 유지보수가 완료되면 Cloud Logging에서 다음 메시지가 포함된 로그를 찾을 수 있습니다.
```
Maintenance window has completed for this instance. All maintenance
notifications on the instance have been removed.
```
선택사항: GKE 노드의 버전 업그레이드: 안내에 따라 노드의 GKE 버전을 업그레이드합니다.

순차적 전략을 사용하여 추론 워크로드의 노드 업데이트

이 전략은 추론 워크로드를 실행하는 GKE 노드에서 유지보수를 수행하는 수동 접근 방식을 설명합니다. 서비스 가용성을 유지하기 위해 노드를 일괄 업데이트하는 작업이 포함됩니다. 이 방법은 일정 비율의 복제본이 일시적으로 오프라인 상태가 되는 것을 허용할 수 있는 워크로드에 가장 적합합니다.

이 전략은 다음과 같은 주요 단계를 따릅니다.

노드 식별 및 일괄 처리: 업데이트할 노드 풀을 선택합니다. 워크로드의 장애 허용 오차에 따라 노드를 크기가 조정된 배치로 그룹화합니다.
배치 반복: 각 배치에 대해 유지보수 라벨을 적용하고 라벨이 삭제될 때까지 노드 배치를 모니터링합니다.
GKE 버전 업그레이드: 모든 배치에서 호스트 유지보수를 완료한 후 GKE 노드의 버전을 변경합니다.

시작하기 전에 고려해야 할 사항

시작하기 전에 다음 고려사항을 검토하세요.

배포 이해: 성공하려면 워크로드 배포, 복제본 배치, 장애 도메인에 대한 자세한 지식이 필요합니다. 프로세스 전반에 걸쳐 충분한 서빙 용량을 유지해야 합니다.
배치 크기 계획: 노드를 일괄 업데이트합니다. 각 배치의 크기는 워크로드의 장애 허용 오차에 따라 결정됩니다. 고려해야 할 요소는 다음과 같습니다.
- 서빙 모델당 복제본 수입니다.
- 노드 및 장애 도메인 전반의 복제본 배포입니다.
- PodDisruptionBudgets 은 동시에 다운되는 최대 포드 수를 적용하는 데 도움이 될 수 있습니다.
- 권장사항: 관리를 간소화하려면 서로 다른 복제본 집합에 서로 다른 노드 풀을 할당하는 것이 좋습니다. 이렇게 하면 노드 풀 수준에서 장애 도메인을 격리할 수 있습니다.
시간 제약조건 계산: 다음 타이밍 요소를 고려하세요.
- 각 배치는 호스트 유지보수 단계를 완료하는 데 몇 시간이 걸릴 수 있습니다.
- 필요한 기한 내에 모든 유지보수가 완료되도록 최소 배치 크기를 계산합니다.
  1. MAINTENANCE_BLOCKS = floor(HOURS_TO_MAINTENANCE / 4) (HOURS_TO_MAINTENANCE는 사용 가능한 총 시간임)
  2. MIN_PER_BATCH = TOTAL_NODE_COUNT / MAINTENANCE_BLOCKS
- 선택한 배치 크기는 MIN_PER_BATCH보다 크거나 같아야 합니다.
특정 워크로드 유형 검토: 각 구성 유형에 대해 다음을 고려하세요.
- 전문가 혼합 (MOE): 배치 전략이 각 모델에 필요한 최소 복제본 수를 유지하는지 확인합니다.
- 분리된 서빙: 배치를 계획할 때 분리된 설정과 관련된 모든 복제본을 추적해야 합니다.
- 멀티 호스트 노드 풀 (TPU, MNNVL): 이러한 구성의 경우 한 번에 전체 노드 풀을 다운할 가능성이 높습니다. 여러 노드 풀에서 장애 도메인을 적절하게 계획합니다.

일괄 순차적 업데이트 수행

순차적 호스트 유지보수 업데이트를 수행하려면 그룹화된 유지보수 예약을 사용하는 예약의 용량을 하나 이상의 하위 블록 배치로 업데이트하거나 독립적인 유지보수 예약을 사용하여 이름별로 클러스터의 특정 노드 집합을 업데이트할 수 있습니다.

리소스에 적합한 전략을 선택합니다.

하위 블록 배치로 예약 업데이트

하위 블록 배치로 용량 예약에 대한 순차적 호스트 유지보수를 수행하려면 다음 단계를 완료하세요.

유지보수 예약 식별: 용량 예약 이름과 GKE 클러스터에서 사용하는 예약 블록 또는 예약 하위 블록을 식별합니다. 이렇게 하려면 GKE 노드 라벨과 gcloud compute reservations 명령어를 사용하여 조회를 수행합니다.
1. 노드 풀의 노드에서 예약 이름과 물리적 블록 및 하위 블록 토폴로지 ID를 나열합니다.
```
kubectl get nodes -l cloud.google.com/gke-nodepool=NODE_POOL_NAME \
    -o custom-columns='NAME:.metadata.name,RESERVATION:.metadata.labels.cloud\.google\.com/reservation-name,BLOCK_ID:.metadata.labels.cloud\.google\.com/gce-topology-block,SUBBLOCK_ID:.metadata.labels.cloud\.google\.com/gce-topology-subblock'
```
  NODE_POOL_NAME을 노드 풀의 이름으로 바꿉니다.
  
  예약 이름 (예: nvidia-gb300-m7kp2xq9vd4j1), 블록 ID (예: 3f2a8c9b1d4e0756f8a2b3c1d9e4f0a5), 하위 블록 ID (예: e7b91f4a3c2d58069e1a4b7f3d2c8056)와 같은 출력 값을 기록합니다.
2. 예약 블록 리소스 이름을 식별하려면 예약 이름을 사용하여 Compute Engine 예약 블록 목록을 쿼리하고 블록 ID로 필터링합니다.
```
gcloud compute reservations blocks list RESERVATION_NAME \
    --zone=ZONE \
    --project=PROJECT_ID \
    --filter="physicalTopology.block=BLOCK_ID"
```
  다음을 바꿉니다.
  - RESERVATION_NAME: 예약 이름.
  - ZONE: 예약이 있는 영역입니다.
  - PROJECT_ID: 예약이 있는 프로젝트 ID입니다.
  - BLOCK_ID: 노드 라벨에서 가져온 블록 ID입니다.
  출력에서 블록 이름을 기록합니다.
3. 예약 하위 블록 리소스 이름을 식별하려면 예약 이름과 블록 이름을 사용하여 예약 하위 블록 목록을 쿼리하고 하위 블록 ID로 필터링합니다.
```
gcloud compute reservations sub-blocks list RESERVATION_NAME \
    --block-name=BLOCK_NAME \
    --zone=ZONE \
    --project=PROJECT_ID \
    --filter="physicalTopology.subBlock=SUBBLOCK_ID"
```
  다음을 바꿉니다.
  - RESERVATION_NAME: 예약 이름입니다.
  - BLOCK_NAME: 예약 블록 리소스 이름입니다.
  - ZONE: 예약이 있는 영역입니다.
  - PROJECT_ID: 예약이 있는 프로젝트 ID입니다.
  - SUBBLOCK_ID: 노드 라벨에서 가져온 하위 블록 ID입니다.
  출력에는 리소스 이름을 비롯하여 일치하는 예약 하위 블록에 대한 세부정보가 표시됩니다.
예약을 배치로 나누기: 식별된 용량 예약 하위 블록을 동일한 배치로 나눕니다. 이전 시작하기 전에 고려해야 할 사항 섹션의 시간 제약조건 계산 목록 항목에 설명된 공식을 사용하여 배치 크기를 결정합니다. 각 배치는 하나 이상의 예약 하위 블록에 해당하며 각 배치는 하위 블록 크기 이상이어야 합니다.
호스트 유지보수 수행: 각 배치에 대해 다음 단계를 완료합니다.
1. 예약 하위 블록 배치를 선택하고 호스트 유지보수를 트리거합니다. 예약, 예약 블록 또는 예약 하위 블록 전반에서 유지보수를 트리거할 수 있습니다. A4X, A4X Max, TPU v6e, TPU7x와 같은 머신 유형의 경우 이 방법으로 유지보수를 트리거해야 합니다. 유지보수는 하위 블록 그룹으로 수행됩니다. gcloud compute reservations sub-blocks perform-maintenance 명령어를 사용합니다.
```
gcloud compute reservations sub-blocks perform-maintenance RESERVATION_NAME \
    --block-name=BLOCK_NAME \
    --sub-block-name=SUB_BLOCK_NAME \
    --zone=ZONE
```
  다음을 바꿉니다.
  - RESERVATION_NAME: 예약 이름입니다.
  - BLOCK_NAME: 예약 블록의 이름입니다.
  - SUB_BLOCK_NAME: 예약 하위 블록의 이름입니다.
  - ZONE: 예약이 있는 영역입니다.
  Compute Engine은 하위 블록의 모든 인스턴스를 동시에 드레이닝하고 업데이트하기 시작합니다. 이 프로세스는 몇 시간이 걸릴 수 있습니다.
2. 예약 리소스에서 upcomingGroupMaintenance 메타데이터 필드를 확인하여 유지보수 상태를 확인하여 유지보수 상태를 모니터링합니다. 자세한 내용은 예약 유지보수 상태 보기를 참조하세요.
3. 모든 배치에 대한 호스트 유지보수를 완료할 때까지 각 나머지 배치에 대해 이전 단계를 반복합니다.
선택사항: GKE 노드의 버전 업그레이드: 아직 유지보수가 완료되지 않은 호스트에 GKE 노드가 배포되는 시나리오를 방지하려면 모든 예약 하위 블록에 대한 호스트 유지보수가 완료된 후에만 이 단계를 수행합니다. 안내에 따라 노드의 GKE 버전을 업그레이드합니다.

노드를 일괄 업데이트

일괄 처리에서 하위 블록을 지원하지 않는 주문형 인스턴스 또는 예약에 대한 순차적 호스트 유지보수를 수행하려면 다음 단계를 완료하세요.

유지보수 노드 식별: 유지보수를 수행할 모든 노드를 식별하고 이 목록을 저장합니다. 노드를 식별하려면 다음 방법 중 하나를 사용하거나 수동으로 선택합니다.
- 가속기 (TPU 또는 GPU)를 사용하는 클러스터의 모든 노드를 가져옵니다.
```
kubectl get nodes -o json | jq -r '.items[] | select(.spec.taints[]? | select(.key=="nvidia.com/gpu" or .key=="google.com/tpu")) | .metadata.name'
```
- 특정 노드 풀의 모든 노드를 가져옵니다.
```
kubectl get nodes -l cloud.google.com/gke-nodepool=NODE_POOL_NAME --no-headers -o custom-columns=":metadata.name"
```
  NODE_POOL_NAME을 노드 풀의 이름으로 바꿉니다.
- 특정 라벨이 있는 모든 노드를 가져옵니다.
```
kubectl get nodes -l LABEL -o jsonpath='{.items[*].metadata.name}'
```
  LABEL을 노드 라벨로 바꿉니다.
노드를 배치로 나누기: 식별된 노드를 동일한 배치로 나눕니다. 이전 시작하기 전에 고려해야 할 사항 섹션의 시간 제약조건 계산 목록 항목에 설명된 공식을 사용하여 배치 크기를 결정합니다.
호스트 유지보수 수행: 각 배치에 대해 다음 단계를 완료합니다.
1. 노드 배치를 선택하고 유지보수 라벨을 적용하여 instances API를 사용하여 인스턴스 레이어에서 유지보수를 트리거합니다.
  
  경고: 그룹화된 유지보수 예약을 사용하도록 구성된 인스턴스 (예: A4X, A4X Max, TPU v6e, TPU7x)는 긴밀하게 결합되어 있으며 단일 단위로 함께 유지보수되어야 합니다. 하위 블록 수준 유지보수를 사용해야 합니다.
```
kubectl label nodes LIST_OF_NODES_IN_BATCH cloud.google.com/perform-maintenance=true --overwrite
```
  LIST_OF_NODES_IN_BATCH를 배치에서 공백으로 구분된 노드 목록으로 바꿉니다. 예를 들어 node-1 node-2 node-3입니다.
  
  Compute Engine은 기본 인스턴스를 동시에 드레이닝하고 업데이트하기 시작합니다. 이 프로세스는 몇 시간이 걸릴 수 있습니다. 자세한 내용은 정상 종료 프로세스를 참조하세요.
2. 호스트 유지보수 상태를 모니터링합니다. 유지보수가 완료되면 GKE는 유지보수 라벨이 적용된 경우 이를 삭제합니다. 유지보수가 완료되면 Logging에서 다음 메시지가 포함된 로그를 찾을 수 있습니다.
```
Maintenance window has completed for this instance. All maintenance
notifications on the instance have been removed.
```
3. 모든 배치에 대한 호스트 유지보수를 완료할 때까지 각 나머지 배치에 대해 이전 단계를 반복합니다.
선택사항: GKE 노드의 버전 업그레이드: 아직 유지보수가 완료되지 않은 호스트에 GKE 노드가 배포되는 시나리오를 방지하려면 모든 노드에 대한 호스트 유지보수가 완료된 후에만 이 단계를 수행합니다. 안내에 따라 노드의 GKE 버전을 업그레이드합니다.

노드의 GKE 버전 업그레이드

동시에 업그레이드할 노드 수를 고려합니다. 병렬 전략을 사용하면 전체 노드 풀 또는 여러 노드 풀에 대해 동시에 호스트 유지보수를 수행했습니다. 순차적 전략을 사용하면 호스트 유지보수를 일괄 수행했습니다. 노드 그룹의 크기에 따라 사용할 업그레이드 방법을 결정합니다.

병렬 전략: 노드 풀에 영역당 노드가 100개 이하인 경우 일시 급증 업그레이드를 사용합니다. 노드 풀에 영역당 노드가 100개보다 많은 경우 노드 풀을 삭제하고 다시 만듭니다.
순차적 전략: 배치에 영역당, 노드 풀당 노드가 100개 이하인 경우 일시 급증 업그레이드를 사용합니다. 배치에 영역당, 노드 풀당 노드가 100개보다 많은 경우 노드를 삭제하고 다시 만듭니다.

일시 급증 업그레이드 사용

일시 급증 업그레이드를, 구성합니다. maxUnavailable 설정을 사용하여 노드 풀에서 영역당 동시에 사용할 수 없는 노드 수를 결정합니다. 예를 들어 노드 풀의 한 영역에 노드가 18개 있는 경우 maxUnavailable 필드의 값을 18로 설정합니다.

이 설정은 초과 용량이 없는 예약의 용량을 사용할 때 가장 적합합니다. 이 설정을 사용하는 이유에 대한 자세한 내용은 리소스가 제한된 환경에서 업그레이드를 참조하세요.
다음 명령어를 실행하여 노드 풀을 업그레이드합니다. 여러 노드 풀을 업그레이드하려면 각 노드 풀에 대해 이 명령어를 실행합니다.
```
gcloud container clusters upgrade CLUSTER_NAME \
    --node-pool NODE_POOL_NAME \
    --cluster-version VERSION \
    --location CONTROL_PLANE_LOCATION \
    --quiet
```
다음을 바꿉니다.
- CLUSTER_NAME: 클러스터 이름입니다.
- NODE_POOL_NAME: 노드 풀의 이름입니다.
- VERSION: 노드 풀의 권장 자동 업그레이드 대상입니다. 자세한 내용은 Standard 클러스터 노드 풀의 업그레이드 정보 가져오기를 참조하세요. 클러스터에 권장 자동 업그레이드 대상이 없는 경우 버전 업데이트 항목을 GKE 출시 노트에서 확인하세요.
- CONTROL_PLANE_LOCATION: 클러스터 컨트롤 플레인의 위치입니다.

노드 삭제 및 다시 만들기

노드 풀을 삭제하고 최신 버전을 사용하여 다시 만듭니다.

노드 풀을 삭제합니다.

gcloud container node-pools delete NODE_POOL_NAME \
    --cluster CLUSTER_NAME \
    --location CONTROL_PLANE_LOCATION

--cluster-version 플래그를 사용하여 새 버전을 전달하여 노드 풀을 다시 만듭니다. 노드 풀의 권장 자동 업그레이드 대상을 전달합니다. 자세한 내용은 Standard 클러스터 노드 풀의 업그레이드 정보 가져오기를 참조하세요. 클러스터에 권장 자동 업그레이드 대상이 없는 경우 GKE 출시 노트에서 최신 버전 업데이트 항목을 확인하세요.