탄력적 교차 리전 고가용성 정보

Google Kubernetes Engine (GKE)에서 까다로운 AI 추론 워크로드에 탄력적인 교차 리전 고가용성을 구현하여 여러 Cloud de Confiance 리전에서 가속기 용량에 효율적이고 안정적으로 액세스할 수 있습니다. 이 솔루션은 GKE 멀티 클러스터 추론 게이트웨이와 GKE 자동 확장 기능을 사용하여 워크로드가 여러 지역에서 가속기 용량에 액세스하고 확장할 수 있도록 지원합니다. 이 접근 방식을 사용하면 AI 애플리케이션의 리소스 가용성, 확장성, 복원력이 향상됩니다. 이 문서에서는 탄력적 교차 리전 고가용성의 이점, 주요 구성요소, 작동 방식을 전반적으로 설명합니다.

이 문서를 읽기 전에 다음 사항을 숙지해야 합니다.

이 문서는 다음 사용자를 대상으로 합니다.

  • AI/ML 워크로드를 서빙하기 위해 Kubernetes를 사용하는 데 관심이 있는 머신러닝 (ML) 엔지니어, 플랫폼 관리자 및 운영자, 데이터 및 AI 전문가
  • Kubernetes 네트워킹과 상호작용하는 클라우드 설계자 또는 네트워킹 전문가

Cloud de Confiance 콘텐츠에서 참조하는 일반적인 역할과 예시 태스크에 대한 자세한 내용은 일반 GKE Enterprise 사용자 역할 및 태스크를 참고하세요.

탄력적 리전 간 고가용성의 이점

탄력적인 리전 간 고가용성은 AI/ML 추론 워크로드 관리에 다음과 같은 여러 가지 주요 이점을 제공합니다.

  • 용량 및 확장성 향상: 여러 리전의 여러 클러스터에서 GPU 또는 TPU 리소스를 풀링하여 단일 리전 액셀러레이터 부족 문제를 해결합니다. 다양한 가속기 유형을 사용하여 용량 풀을 추가로 확장할 수도 있습니다. 이 접근 방식을 사용하면 AI 추론 워크로드가 단일 리전 또는 가속기 유형의 용량을 초과하여 버스트할 수 있으며, 리전에 관계없이 Fleet에서 사용 가능한 리소스를 자동으로 활용할 수 있습니다.
  • 자동 스필오버 및 안정성 및 가용성 향상: 게이트웨이는 선호하는 리전 또는 클러스터에 우선순위를 부여하여 트래픽을 지능적으로 라우팅합니다. 한 위치에서 용량 한도에 도달하면 사용 가능한 리소스가 있는 다른 위치로 트래픽이 자동으로 오버플로됩니다. 이 접근 방식은 멀티 리전 배포와 결합되어 시스템이 문제가 있는 클러스터나 리전을 우회할 수 있으므로 고가용성과 내결함성을 향상합니다.
  • AI에 최적화된 트래픽 분산: 키-값 캐시 사용량과 같은 맞춤 AI 관련 측정항목과 함께 사용률 기반 부하 분산을 사용합니다. 이 설정을 사용하면 전역적으로 최적화된 라우팅 결정을 내릴 수 있습니다. AI에 최적화된 트래픽 분산은 요청을 처리할 수 있는 백엔드로 요청을 전송하여 성능을 극대화하고 멀티 클러스터 추론 Fleet 전반의 과부하를 방지하는 데 도움이 됩니다.

탄력적 교차 리전 고가용성의 작동 방식

GKE의 탄력적인 교차 리전 고가용성을 사용하면 AI 추론 워크로드가 여러 Cloud de Confiance 리전에서 가속기 용량 (예: GPU 또는 TPU)을 자동으로 사용할 수 있습니다. 기본 리전에서 필요한 리소스의 용량 제약이 발생하는 경우 이 솔루션은 정의된 환경설정을 준수하면서 트래픽을 지능적으로 라우팅하고 워크로드를 사용 가능한 용량이 있는 다른 리전으로 확장합니다.

다음은 탄력적 리전 간 고가용성의 주요 구성요소와 이러한 구성요소가 함께 작동하는 방식을 설명합니다.

  • 멀티 클러스터 추론 게이트웨이: 추론 애플리케이션이 서로 다른 리전의 여러 GKE 클러스터에 배포됩니다. 이러한 클러스터는 GKE Fleet의 일부로 관리됩니다. GKE 멀티 클러스터 추론 게이트웨이 (MCG)는 추론 요청을 위한 단일 비공개 엔드포인트를 제공하는 내부 부하 분산기로 구성됩니다. 이 게이트웨이는 Fleet의 모든 클러스터에 걸쳐 있는 서비스 배포를 인식합니다.
  • 사용률 기반 부하 분산: 기본 요청률을 사용하는 대신 부하 분산기는 모델 서버에서 보고된 실시간 맞춤 사용률 측정항목을 기반으로 트래픽을 분산합니다. AI 추론의 경우 이는 서버의 실제 부하를 반영하는 KV 캐시 사용률과 같은 측정항목인 경우가 많습니다.
  • 위치 및 리소스 기본 설정: 클러스터 생성 중에 AI 추론 워크로드를 실행할 수 있는 리전 또는 영역을 구성할 수 있으며 다음을 사용하여 기본 설정 순서를 지정할 수 있습니다.
    • GCPBackendPolicy: 이 정책은 게이트웨이에 연결되며 선호하는 백엔드를 정의할 수 있습니다. 부하 분산기가 트래픽을 우선적으로 전송해야 하는 리전 (즉, 클러스터)을 지정할 수 있습니다. 이 정책은 일반적으로 예약된 용량이 있는 위치 또는 지연 시간 요구사항이 낮은 위치와 일치합니다.
    • 커스텀 컴퓨팅 클래스 (노드 풀 자동 생성을 사용하는 경우 선택사항): 각 GKE 클러스터 내에서 커스텀 ComputeClass 객체를 사용하여 머신 유형 (예: a3-highgpu-8g), 용량 유형 (예: 예약, 온디맨드, 스팟) 및 해당 리전 내의 선호 영역을 비롯한 선호 노드 유형을 정의할 수 있습니다.
  • 동적 확장 및 트래픽 라우팅: 트래픽은 다음 프로세스에 따라 확장되고 라우팅됩니다.
    • 수신 요청이 멀티 클러스터 인그레스 게이트웨이의 내부 부하 분산기에 도달합니다.
    • GCPBackendPolicy의 안내에 따라 부하 분산기는 선호하는 리전의 백엔드로 먼저 트래픽을 전송합니다.
    • 트래픽은 맞춤 사용률 측정항목을 기반으로 리전 내 및 백엔드 간에 분산됩니다.
    • 각 클러스터의 Horizontal-Pod-Autoscaler (HPA)는 동일한 사용률 측정항목을 기반으로 모델 서버 포드의 수를 늘리거나 줄입니다.
    • 커스텀 ComputeClass의 안내에 따라 GKE 클러스터 자동 확장 처리 및 노드 자동 프로비저닝은 포드의 확장 요구사항을 충족하기 위해 선호하는 유형과 영역의 노드를 추가하거나 삭제합니다.
  • 탄력적 교차 리전 고가용성: 선호하는 리전의 모델 서버가 완전히 사용되면 (즉, 추가 용량이 없음) 부하 분산기는 사용 가능한 용량이 있는 다른 구성된 리전의 클러스터로 트래픽을 자동으로 유출합니다. 그러면 HPA와 클러스터 자동 확장 처리기가 필요에 따라 이러한 대체 리전의 리소스를 확장합니다.

다음 단계