このページの一部またはすべての情報は、S3NS の Cloud de Confiance に適用されない場合があります。詳細については、Google Cloud との違いをご確認ください。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

GKE Inference Gateway で予測レイテンシベースのルーティングを使用する

Autopilot Standard

このドキュメントでは、GKE Inference Gateway 内で llm-d によって提供される予測レイテンシベースのルーティングを有効にして使用する方法について説明します。デフォルトでは、GKE Inference Gateway は、負荷シグナルとプレフィックスキャッシュアフィニティヒューリスティクスの組み合わせを使用してリクエストをルーティングします。予測レイテンシベースのルーティングでは、静的なヒューリスティック重みが、ライブトラフィックで継続的にトレーニングされる XGBoost モデルに置き換えられます。これにより、ワークロードパターンが変化しても、より正確なルーティングを決定できます。

予測レイテンシベースのルーティングを使用する場合

この機能は、ワークロードに次の条件が適用される場合に最も効果的です。

プロンプトと補完の長さの分散が大きい: リクエストサイズが大きく異なる場合、キューの深さだけではサーバー負荷の適切なプロキシになりません。レイテンシ予測ツールは、リクエストあたりの実際のプリフィル費用とデコード費用を考慮します。
リクエストごとのレイテンシ SLO: アプリケーションが個々のリクエストで最初のトークンまでの時間（TTFT）または出力トークンあたりの時間（TPOT）のターゲットを指定すると、スケジューラはルーティング中にこれらのターゲットを適用します。これは、各候補 Pod のヘッドルーム（予測レイテンシから SLO ターゲットを引いた値）を計算することで行われます。
脆弱な静的重み調整: トラフィックパターンの変化に合わせてキャッシュアフィニティとロードシグナルのバランスを頻繁に再調整している場合、オンライントレーニングモデルが自動的に適応します。

予測レイテンシベースのルーティングの仕組み

このセクションでは、予測レイテンシベースのルーティングで使用されるアーキテクチャとスケジューリングパイプラインについて詳しく説明します。

アーキテクチャ

予測レイテンシベースのスケジューリングでは、EPP 自体とともに、EPP Pod 内に 2 つの追加のサイドカーコンテナがデプロイされます。

コンポーネント	説明
トレーニングサーバー	EPP から受信した完了済みリクエストサンプルで XGBoost TTFT モデルと TPOT モデルを継続的に再トレーニングします。スライディングウィンドウで階層化バケットを使用し、まれなトラフィックレジームが忘れられないようにします。更新されたモデルを共有ボリュームに書き込みます。
予測サーバー	リクエストのホットパスで TTFT と TPOT の予測を EPP に提供します。共有ボリュームから最新のトレーニング済みモデルを読み取ります。水平スケーラビリティ - 各サーバーインスタンスは、約 300 QPS の予測作業を維持します。複数のインスタンスは、EPP の Go 統合プロキシによって負荷分散されます。このプロキシは、1 ミリ秒のウィンドウ内で同時予測リクエストをバッチ処理します。

コンポーネント

説明

トレーニングサーバー

EPP から受信した完了済みリクエストサンプルで XGBoost TTFT モデルと TPOT モデルを継続的に再トレーニングします。スライディングウィンドウで階層化バケットを使用し、まれなトラフィックレジームが忘れられないようにします。更新されたモデルを共有ボリュームに書き込みます。

予測サーバー

リクエストのホットパスで TTFT と TPOT の予測を EPP に提供します。共有ボリュームから最新のトレーニング済みモデルを読み取ります。水平スケーラビリティ - 各サーバーインスタンスは、約 300 QPS の予測作業を維持します。複数のインスタンスは、EPP の Go 統合プロキシによって負荷分散されます。このプロキシは、1 ミリ秒のウィンドウ内で同時予測リクエストをバッチ処理します。

llm-d EPP スケジューリングパイプライン

予測レイテンシベースのスケジューリングが有効になっている場合、EPP は次の構成可能なプラグインのシーケンスで各リクエストを処理します。

predicted-latency-producer: InferencePool 内の候補 Pod ごとに、各 Pod の現在の KV キャッシュ使用率、キューの深さ、プレフィックスキャッシュ一致スコア、受信リクエストの特徴を条件として、予測サーバーを呼び出して TTFT と TPOT の推定値を取得します。レスポンスがクライアントに返されると、プロデューサーは観測された TTFT とトークン間のレイテンシを新しいトレーニングサンプルとしてトレーニングサーバーに送り返します。
- フォールバック動作: 予測サーバーにアクセスできない場合や、エラーが返された場合、EPP は KV キャッシュ使用率、キューの深さ、プレフィックスキャッシュの一致に基づく複合スコアに自動的にフォールバックします。
prefix-cache-affinity-filter: このフィルタは、Pod のプレフィックスキャッシュ一致スコアがアフィニティしきい値（デフォルトは 0.80）を超えた場合に、候補セットをキャッシュウォーム Pod に絞り込みます。このしきい値は、本番環境で観測された 2 つの母集団（以前のターンで会話履歴がすでにキャッシュに保存されている Pod と、そうでない Pod）を分離します。このフィルタは、イプシロングリーディな活用と探索の戦略を実装します。
- エクスプロイト（デフォルトパス）: このパスは、スコアリングでキャッシュの再利用が集中するように、キャッシュウォーム Pod にルーティングします。
- 探索（小確率）: このパスは、構成可能な割合のリクエストでフィルタを完全にバイパスし、コールド Pod のキャッシュエントリをシードして、キャッシュの断片化を防ぎます。
- TTFT ロードゲート: エクスプロイトパスでも、最適なキャッシュウォーム Pod の予測 TTFT が最適な全体 Pod の TTFT を構成可能なしきい値（デフォルトは 5,000 ミリ秒）を超えると、アフィニティが解除され、候補セット全体が使用されます。
slo-headroom-tier-filter（SLO リクエストのみ）: リクエストに SLO ヘッダーが含まれている場合、候補 Pod をポジティブティア（SLO を満たすと予測される）とネガティブティア（SLO に違反すると予測される）に分割します。
latency-scorer: 候補の Pod をスコアリングします。SLO ヘッダーがない場合、予測レイテンシが最も低い Pod が選択されます。SLO ヘッダーを使用する場合、スコアは headroomSelectionStrategy を使用してヘッドルーム（SLO から予測レイテンシを引いた値）に基づいて計算されます。
- least（デフォルト）: ビンパッキング。ヘッドルームが最も小さい正の Pod にルートを設定し、使用率を最大化して、負荷の少ない Pod を将来のトラフィックバーストに備えて解放します。
- most: スプレッド。最もヘッドルームが大きい Pod にルートを設定し、予期しない負荷の急増に対応できるようにします。
latency-slo-admitter（SLO リクエストのみ）: SLO を満たす候補 Pod が予測されない場合、ターゲットを満たさないと予測されるリクエストで容量を消費するのではなく、削除可能なリクエスト（優先度が 0 未満）を拒否します。SLO ヘッダーがない場合、または SLO を満たす Pod が存在する場合、このフィルタは効果がありません。
weighted-random-picker: スコアに対する重み付きランダム選択を使用して、最終的な Pod を選択します。これにより、負荷が分散され、スコアの高い Pod が優先されます。

ストリーミングモード

predicted-latency-producer プラグインは、streamingMode パラメータを使用して構成される 2 つのトレーニングモードをサポートしています。

streamingMode: false（デフォルト）: エンドツーエンド（E2E）リクエストのレイテンシでトレーニングします。ワークロードでストリーミングレスポンスと非ストリーミングレスポンスが混在している場合、またはリクエストごとの SLO の適用なしでレイテンシ認識ルーティングのみが必要な場合は、このモードを使用します。
streamingMode: true: 個別の TTFT モデルと TPOT モデルをトレーニングします。TTFT は最初のストリーミングチャンクに記録され、TPOT は後続のトークンでサンプリングされます。ワークロードが完全にストリーミングされており、x-slo-ttft-ms / x-slo-tpot-ms の意味のある適用が必要な場合は、このモードを使用します。

始める前に

作業を始める前に、次のタスクが完了していることを確認してください。

Google Kubernetes Engine API を有効にする。

Google Kubernetes Engine API を有効化

このタスクに Google Cloud CLI を使用する場合は、gcloud CLI をインストールして初期化します。gcloud CLI をインストール済みの場合は、gcloud components update コマンドを実行して最新のバージョンを取得します。以前のバージョンの gcloud CLI では、このドキュメントのコマンドを実行できない場合があります。
注: gcloud CLI がすでにインストールされている場合には、必ず compute/region プロパティを設定してください。主にゾーンクラスタを使用する場合は、代わりに compute/zone を設定します。デフォルトのロケーションを設定することで、gcloud CLI のエラー（One of [--zone, --region] must be supplied: Please specify location など）を防止できます。クラスタのロケーションが設定したデフォルトと異なる場合は、特定のコマンドでロケーションの指定が必要になることがあります。

必要に応じて、Compute Engine API、Network Services API、Model Armor API を有効にします。

API へのアクセスを有効にするに移動し、手順に沿って操作します。
GKE Inference Gateway のデプロイが機能していることを確認します。GKE Inference Gateway をデプロイするをご覧ください。
InferencePool が同種の Pod のセット（同じ GPU タイプ、モデルの重み、サービング構成）を使用していることを確認します。
GKE クラスタがバージョン 1.32.3 以降であることを確認します。
Helm をインストールします。Helm インストールガイドをご覧ください。

予測レイテンシベースのスケジューリングを有効にする

次の手順では、GKE Inference Gateway デプロイの予測レイテンシベースのスケジューリングを有効にする方法について説明します。

ステップ 1: 予測レイテンシを有効にして InferencePool をインストールまたはアップグレードする

latencyPredictor.enabled=true フラグは、EPP Pod 内に Training Server と Prediction Server のサイドカーをデプロイし、完全なスケジューリングプラグインパイプラインを接続します。

helm upgrade --install INFERENCE_POOL_NAME \
  --set inferencePool.modelServers.matchLabels.app=MODEL_SERVER_LABEL \
  --set provider.name=gke \
  --set inferenceExtension.monitoring.gke.enabled=true \
  --set inferenceExtension.latencyPredictor.enabled=true \
  --version LLM_D_VERSION \
  oci://LLM_D_REGISTRY_PATH

次のように置き換えます。

INFERENCE_POOL_NAME: InferencePool の名前（例: vllm-llama3-8b-instruct）。
MODEL_SERVER_LABEL: モデルサーバー Pod の選択に使用されるラベルキー。
LLM_D_VERSION: 使用する llm-d Helm チャートのバージョン。
LLM_D_REGISTRY_PATH: llm-d OCI レジストリパス。

ステップ 2: デプロイを確認する

すべてのサイドカーコンテナの準備が整い、EPP Pod が実行されていることを確認します。

kubectl get pods -l app=INFERENCE_POOL_NAME-epp

EPP Pod には、EPP 自体、トレーニングサーバー、1 つ以上の予測サーバーなど、すべてのコンテナが Running 状態または Ready 状態で表示されます。

ステップ 3: ベースラインリクエストを送信する

標準の推論リクエストを送信して、ルーティングが機能していることを確認してから、SLO ヘッダーを有効にします。

curl -i -X POST GATEWAY_IP:PORT/v1/completions \
 -H 'Content-Type: application/json' \
 -H 'Authorization: Bearer $(gcloud auth print-access-token)' \
 -H 'x-prediction-based-scheduling: true' \
 -d '{
    "model": "MODEL_NAME",
    "prompt": "PROMPT_TEXT",
    "max_tokens": MAX_TOKENS,
    "temperature": "0"
 }'

次のように置き換えます。

GATEWAY_IP: ゲートウェイサービスの IP アドレス。
PORT: ゲートウェイサービスのポート番号。
MODEL_NAME: 推論に使用するモデルの名前。
PROMPT_TEXT: 入力プロンプト。
MAX_TOKENS: 生成するトークンの最大数。

x-prediction-based-scheduling: true ヘッダーは、このリクエストを予測レイテンシスケジューリングパイプラインにオプトインします。予測子のウォームアップ期間中、EPP はヒューリスティックルーティングにフォールバックします。

ステップ 4: SLO 対応のリクエストを送信する（省略可）

リクエスト単位の SLO 適用を有効にするには、TTFT と TPOT のレイテンシ目標ヘッダーを追加します。

curl -i -X POST GATEWAY_IP:PORT/v1/completions \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer $(gcloud auth print-access-token)' \
  -H 'x-prediction-based-scheduling: true' \
  -H 'x-slo-ttft-ms: 500' \
  -H 'x-slo-tpot-ms: 50' \
  -d '{
    "model": "MODEL_NAME",
    "prompt": "PROMPT_TEXT",
    "max_tokens": MAX_TOKENS,
    "temperature": "0",
    "stream": true
  }'

次のように置き換えます。

GATEWAY_IP: ゲートウェイサービスの IP アドレス。
PORT: ゲートウェイサービスのポート番号。
MODEL_NAME: 推論に使用するモデルの名前。
PROMPT_TEXT: 入力プロンプト。
MAX_TOKENS: 生成するトークンの最大数。

リクエストヘッダー:

x-prediction-based-scheduling: true: 予測レイテンシスケジューリングパイプラインにリクエストをオプトインします。
x-slo-ttft-ms: 許容可能な最大 Time-to-First-Token（ミリ秒単位）。
x-slo-tpot-ms: 許容可能な出力トークンあたりの最大時間（ミリ秒単位）。

予測レイテンシスケジューリングをモニタリングする

レイテンシ予測ツールが有効になっている場合、EPP は Cloud Monitoring を介して追加の指標を公開します。

指標	説明
`inference_objective_request_ttft_seconds`	実際の TTFT 分布（streamingMode=false の場合は E2E レイテンシ）。
`inference_objective_request_predicted_ttft_seconds`	予測された TTFT 分布（streamingMode=false の場合は E2E レイテンシ）。
`inference_objective_request_tpot_seconds`	実際の TPOT 分布。
`inference_objective_request_predicted_tpot_seconds`	予測された TPOT 分布。
`inference_objective_request_ttft_slo_violation_total`	TTFT SLO 違反のカウンタ。

予測サーバーをスケーリングする

EPP は、受信リクエストごとに候補 Pod ごとに 1 回の予測呼び出しを行います。各予測サーバーインスタンスは、約 300 QPS の予測作業を維持します。

Prediction Server インスタンス数の概算の目安は次のとおりです。

クラスタ QPS（100 個の Pod）	予測サーバーが必要
最大 1,000 QPS	1 個のサーバー
最大 5,000 QPS	2 台のサーバー
最大 10,000 QPS	4 台のサーバー

latencyPredictor.predictionServerCount Helm 値を更新して、Prediction Server インスタンスを追加します。

制限事項

同種 InferencePool が必要: 単一プール内での GPU タイプ、モデルバリアント、サービング構成の混在はサポートされていません。
ウォームアップ期間: XGBoost モデルでは、予測が正確になる前に十分なライブトラフィックサンプルが必要です。
SLO の適用: 適用はルーティングレイヤでのみ行われます。モデルサーバーは、選択後に SLO 目標を超えるリクエストを終了しません。
ステータス: この機能はプレビュー版です。厳格な SLA 要件がある本番環境のワークロードでは、十分なテストを行わずに使用することはおすすめしません。

GKE Inference Gateway で予測レイテンシ ベースのルーティングを使用する

予測レイテンシ ベースのルーティングを使用する場合

予測レイテンシ ベースのルーティングの仕組み

アーキテクチャ

llm-d EPP スケジューリング パイプライン

ストリーミング モード

始める前に

予測レイテンシ ベースのスケジューリングを有効にする

ステップ 1: 予測レイテンシを有効にして InferencePool をインストールまたはアップグレードする

ステップ 2: デプロイを確認する

ステップ 3: ベースライン リクエストを送信する

ステップ 4: SLO 対応のリクエストを送信する（省略可）

予測レイテンシ スケジューリングをモニタリングする

予測サーバーをスケーリングする

制限事項

次のステップ

GKE Inference Gateway で予測レイテンシベースのルーティングを使用する

予測レイテンシベースのルーティングを使用する場合

予測レイテンシベースのルーティングの仕組み

llm-d EPP スケジューリングパイプライン

ストリーミングモード

予測レイテンシベースのスケジューリングを有効にする

ステップ 3: ベースラインリクエストを送信する

予測レイテンシスケジューリングをモニタリングする