Memilih strategi load balancing untuk inferensi model AI/ML di GKE

Halaman ini membantu Anda memilih strategi load balancing yang sesuai untuk workload inferensi model AI/ML di Google Kubernetes Engine (GKE).

Halaman ini ditujukan untuk persona berikut:

  • Engineer machine learning (ML), Admin dan operator platform, serta Spesialis Data dan AI yang tertarik untuk menggunakan kemampuan orkestrasi kontainer Kubernetes untuk melayani beban kerja AI/ML.
  • Arsitek cloud dan spesialis Jaringan yang berinteraksi dengan jaringan Kubernetes.

Untuk mempelajari lebih lanjut peran umum dan contoh tugas yang kami referensikan dalam konten, lihat Peran dan tugas pengguna GKE umum. Trusted Cloud by S3NS

Sebelum membaca halaman ini, pastikan Anda memahami hal-hal berikut:

Saat men-deploy workload inferensi model AI/ML di Google Kubernetes Engine (GKE), pilih strategi penyeimbangan beban yang tepat untuk mengoptimalkan performa, skalabilitas, dan efisiensi biaya. Trusted Cloud by S3NS menyediakan solusi berbeda berikut:

  • GKE Inference Gateway: solusi yang dibuat untuk perutean AI/ML tingkat lanjut. Untuk mengetahui informasi selengkapnya, lihat dokumentasi GKE Inference Gateway.
  • GKE Gateway dengan metrik kustom: solusi yang menggunakan Load Balancer Aplikasi, yang menawarkan kontrol serbaguna, yang dapat digabungkan dengan Load Balancer Aplikasi.

Menggabungkan solusi load balancing

Anda dapat menggunakan GKE Inference Gateway dan GKE Gateway dengan metrik kustom bersama-sama dalam beberapa arsitektur. Dalam arsitektur ini, Load Balancer Aplikasi digunakan dengan GKE Gateway dengan metrik kustom. Misalnya, Load Balancer Aplikasi eksternal global mengarahkan traffic ke region yang sesuai berdasarkan faktor seperti geografi dan health check. Untuk informasi selengkapnya, lihat Load Balancer Aplikasi. Setelah traffic mencapai region tertentu, GKE Inference Gateway akan melakukan load balancing yang cermat dan mendukung AI untuk merutekan permintaan ke server model yang optimal. Untuk mengetahui informasi selengkapnya, lihat dokumentasi GKE Inference Gateway.

Untuk memilih solusi load balancing yang paling sesuai untuk aplikasi inferensi Anda di GKE, pertimbangkan karakteristik workload, persyaratan performa, dan model operasional Anda. Trusted Cloud by S3NS

Untuk mengarahkan traffic ke replika server model yang paling sesuai dan paling sedikit memuat, ekstensi Endpoint Picker GKE Inference Gateway memantau metrik penting khusus AI. Metrik ini mencakup penggunaan cache KV server model, panjang antrean permintaan yang tertunda, pemuatan GPU atau TPU secara keseluruhan, ketersediaan adaptor LoRA, dan biaya komputasi setiap permintaan. Selain perutean yang canggih, GKE Inference Gateway menyediakan prioritas permintaan dan penskalaan otomatis yang dioptimalkan untuk server model.

Ringkasan GKE Gateway dengan metrik kustom

Load Balancer Aplikasi, seperti Load Balancer Aplikasi eksternal global dan Load Balancer Aplikasi eksternal regional, adalah load balancer serbaguna yang mendistribusikan traffic berdasarkan metrik kustom yang dilaporkan oleh layanan backend Anda. Kemampuan ini memberikan kontrol terperinci atas distribusi beban berdasarkan indikator performa khusus aplikasi.

Gateway GKE bertindak sebagai antarmuka berbasis Kubernetes untuk menyediakan dan mengelola Load Balancer Aplikasi. Pada dasarnya, saat Anda menentukan resource Gateway di cluster GKE, pengontrol Gateway GKE akan otomatis mengonfigurasi Load Balancer Aplikasi yang mendasarinya, sehingga memberikan cara yang lebih sederhana untuk mengelola traffic HTTP/HTTPS eksternal ke layanan GKE Anda langsung dari Kubernetes, sekaligus menggunakan infrastruktur load balancing Trusted Cloud by S3NS.

Membandingkan solusi load balancing

Tabel berikut membandingkan fitur GKE Inference Gateway dan GKE Gateway dengan metrik kustom.

Fitur Gateway Inferensi GKE Gateway dengan metrik kustom (menggunakan Load Balancer Aplikasi)
Kasus penggunaan utama Mengoptimalkan workload inferensi AI/ML Generatif di Kubernetes, seperti inferensi model bahasa besar (LLM). Berfungsi dengan baik untuk menyajikan beberapa kasus penggunaan pada satu model, memastikan akses yang adil ke resource model, dan mengoptimalkan workload LLM berbasis GPU/TPU yang sensitif terhadap latensi. Menyediakan load balancing HTTP(S) serbaguna untuk workload yang memerlukan distribusi traffic yang akurat berdasarkan metrik yang dilaporkan aplikasi kustom (sinyal beban). Berfungsi baik untuk layanan yang sensitif terhadap latensi, seperti server game real-time atau platform perdagangan frekuensi tinggi, yang melaporkan data penggunaan kustom.
Perutean dasar Mendukung perutean HTTP(S) standar menurut host dan jalur, yang memperluas GKE Gateway API. Mendukung perutean HTTP(S) standar menurut host dan jalur, yang dikonfigurasi menggunakan resource standar GKE Gateway API.
Logika pemilihan rute lanjutan Melakukan perutean yang mendukung model (misalnya, nama model berbasis isi), pembagian traffic, mirroring, serta menerapkan tingkat prioritas dan kekritisan. Menyeimbangkan traffic berdasarkan metrik kustom yang dilaporkan aplikasi menggunakan standar Open Request Cost Aggregation (ORCA). Hal ini memungkinkan kebijakan seperti WEIGHTED_ROUND_ROBIN untuk pemberian bobot endpoint dalam lokalitas.
Metrik yang didukung Menggunakan serangkaian sinyal bawaan khusus AI yang siap digunakan, seperti pemanfaatan GPU/TPU, `KV cache hits`, dan `request queue length`. Anda juga dapat mengonfigurasinya untuk menggunakan metrik yang dilaporkan aplikasi yang dikirim menggunakan mekanisme header HTTP standar. Mengandalkan metrik yang dilaporkan aplikasi dengan menggunakan mekanisme header HTTP standar (mekanisme ini dikenal sebagai _pelaporan beban ORCA_). Format ini memungkinkan pelaporan metrik standar, seperti CPU dan memori, atau metrik bernama kustom untuk resource terbatas khusus aplikasi.
Penanganan permintaan Menurunkan biaya permintaan tidak seragam, yang umum dalam LLM. Mendukung permintaan [tingkat kekritisan](/kubernetes-engine/docs/concepts/about-gke-inference-gateway#traffic-distribution). Dioptimalkan untuk biaya permintaan yang relatif seragam. Tidak menyertakan pemrioritasan permintaan bawaan.
Dukungan adaptor LoRa Menyediakan perutean berbasis afinitas native ke backend yang dilengkapi LoRa yang sesuai. Tidak memberikan dukungan native.
Integrasi penskalaan otomatis Mengoptimalkan penskalaan untuk server model berdasarkan metrik khusus AI, seperti `KV cache hits`. Horizontal Pod Autoscaler (HPA) dapat menggunakan metrik kustom, tetapi penyiapannya bersifat umum berdasarkan metrik yang dilaporkan untuk Load Balancer Aplikasi.
Penyiapan dan konfigurasi Konfigurasi dengan GKE Gateway API. Memperluas API standar dengan Definisi Resource Kustom (CRD) InferencePool dan InferenceModel khusus untuk mengaktifkan fitur yang mendukung AI. Konfigurasi dengan resource standar GKE Gateway API. Aplikasi harus menerapkan mekanisme berbasis header HTTP untuk melaporkan metrik kustom.
Keamanan Menyediakan pemfilteran konten AI dengan Model Armor di gateway. Memanfaatkan fitur keamanan dasar GKE seperti TLS, IAM, Kontrol Akses Berbasis Peran (RBAC), dan namespace. Menggunakan stack keamanan Load Balancer Aplikasi standar, termasuk Model Armor, penghentian TLS, dan IAM. Model Armor juga didukung dengan mengintegrasikannya sebagai Ekstensi Layanan.
Kemampuan observasi Menawarkan kemampuan pengamatan bawaan ke dalam metrik khusus AI, termasuk pemanfaatan GPU atau TPU, `KV cache hits`, `request queue length`, dan latensi model. Observabilitas bergantung pada metrik kustom yang dikonfigurasi untuk dilaporkan oleh aplikasi. Anda dapat melihatnya di Cloud Monitoring. Ini dapat mencakup metrik standar atau metrik bernama kustom.
Ekstensibilitas Dibangun di atas fondasi open source yang dapat diperluas dan mendukung algoritma Pemilih Endpoint yang dikelola pengguna. Memperluas GKE Gateway API dengan Definisi Resource Kustom (InferencePool, InferenceModel) khusus untuk menyederhanakan kasus penggunaan AI/ML umum. Dirancang agar fleksibel, sehingga memungkinkan load balancing diperluas dengan metrik kustom (sinyal beban) apa pun yang dapat dilaporkan aplikasi menggunakan standar ORCA.
Tahap peluncuran Pratinjau GA

Kapan harus menggunakan GKE Inference Gateway

Gunakan GKE Inference Gateway untuk mengoptimalkan workload inferensi AI/ML yang canggih di GKE, terutama untuk LLM.

Pilih GKE Inference Gateway jika Anda perlu melakukan hal berikut:

  • Perutean yang mendukung model: mengarahkan traffic berdasarkan status khusus LLM seperti hit cache KV atau panjang antrean permintaan, atau ke adaptor LoRA tertentu.
  • Penyeimbangan beban yang memperhatikan biaya: menangani permintaan inferensi secara efisien dengan biaya pemrosesan yang bervariasi dan memprioritaskannya berdasarkan tingkat kekritisan (kritis, standar, atau dapat dihentikan).
  • Penskalaan otomatis khusus AI: menskalakan server model secara dinamis berdasarkan metrik AI yang relevan untuk penggunaan resource yang optimal.
  • Keamanan dan kemampuan observasi AI bawaan: gunakan integrasi Model Armor bawaan untuk pemeriksaan keamanan AI dan dapatkan insight siap pakai tentang pemanfaatan GPU/TPU, hit cache KV, dan panjang antrean permintaan.
  • Deployment AI generatif yang disederhanakan: manfaatkan solusi yang dibuat khusus dan dapat di-extend yang menyederhanakan pola deployment AI generatif umum di GKE sekaligus menawarkan penyesuaian melalui fondasi GKE Gateway API-nya.

Kapan Harus Menggunakan GKE Gateway dengan Metrik Kustom

Gunakan Gateway GKE dengan metrik kustom untuk load balancing serbaguna yang fleksibel dan beradaptasi dengan indikator performa unik aplikasi Anda, termasuk untuk beberapa skenario inferensi.

Pilih GKE Gateway dengan metrik kustom saat Anda perlu melakukan hal berikut:

  • Menangani volume traffic tinggi dengan biaya permintaan yang relatif seragam.
  • Mendistribusikan beban berdasarkan metrik kustom yang dilaporkan aplikasi menggunakan pelaporan beban ORCA.
  • Hindari kecerdasan perutean khusus AI/LLM yang ditawarkan oleh GKE Inference Gateway.
  • Prioritaskan konsistensi dengan deployment Load Balancer Aplikasi yang ada yang memenuhi kebutuhan layanan inferensi Anda.

Langkah berikutnya