Compute Engine の Cloud TPU リソース

Compute Engine リソースを使用して、Tensor Processing Unit(TPU)を作成して管理できます。このページでは、Compute Engine で TPU を使用するコンセプトの概要について説明します。TPU のコンセプトを Compute Engine リソースにマッピングし、TPU リソースを作成するための大まかなワークフローについて説明します。

TPU の主なコンセプト

Compute Engine 内で TPU リソースを管理するには、次の TPU の主なコンセプトを理解しておくと便利です。

  • TPU VM: TPU ハードウェアに直接接続する仮想マシン。
  • TPU スライス: 相互接続された TPU チップの論理グループ。 1 つ以上の TPU VM を介してアクセスします。 スライスには、次のいずれかのスコープがあります。
    • 単一ホスト スライス: 1 つのホストマシンで構成されるスライス。通常、これは 1 つの TPU VM にマッピングされます。
    • マルチホスト スライス: 高速チップ間相互接続(ICI)を使用して相互接続された複数の TPU VM で構成されるスライス。

    TPU と Compute Engine のコンセプト マップ

    次の表に、TPU のコンセプトが Compute Engine リソースにどのようにマッピングされるかを示します。

    Cloud TPU のコンセプト Compute Engine リソース リソースの詳細 ユースケース
    TPU VM VM インスタンス TPU ハードウェアに直接アクセスできる Compute Engine VM。 個々の VM タスク、SSH コマンドの実行、デバッグ
    TPU 単一ホスト スライス 単一の VM を持つ VM インスタンスまたは MIG 1 つの物理ホストマシンで構成される構成。 自動スケーリングによる推論
    TPU マルチホスト スライス ワークロード ポリシーでアクセラレータ トポロジが指定された MIG ICI を使用して相互接続された TPU VM のグループ。単一の論理ユニットとして管理されます。 アトミック プロビジョニングを必要とする大規模な分散トレーニング

    Cloud TPU API から移行する

    Google Cloud CLI や Cloud TPU 用の Cloud クライアント ライブラリなど、Cloud TPU API は現在開発されていません。Cloud TPU API には、バグ修正とセキュリティ アップデートのみが提供されます。TPU7x(Ironwood)以降の新しいハードウェア世代は、Compute Engine または Google Kubernetes Engine(GKE)でのみサポートされます。最新の機能と最新の TPU バージョンのサポートについては、従来の Cloud TPU API 呼び出しを Compute Engine または GKE の同等の呼び出しに置き換えて移行してください。

    オーケストレーションとワークロードの要件に応じて、次のいずれかのパスを選択します。

    既存の TPU リソース

    Cloud TPU API(Node または QueuedResource REST オブジェクト)を使用して作成された TPU リソースは、Compute Engine および GKE と互換性がありません。Compute Engine または GKE の使用を開始するには:

    • Cloud TPU API を使用するスクリプトを、Compute Engine API または GKE API を使用するように書き換えます。
    • Cloud TPU API を使用してリソースを削除し、Compute Engine API または GKE API を使用してリソースを再作成します。

    制限事項

    Compute Engine の TPU には次の制限があります。

    • TPU バージョン: Compute Engine は v5p、v6e、TPU7x をサポートしています。
    • 容量モード: TPU の [すべての容量] モード は、Compute Engine では使用できません。
    • マルチスライス: 相互接続されたマルチホスト TPU スライスのグループの作成は、Compute Engine では使用できません。マルチスライスを使用するには、Google Kubernetes Engine(GKE)を使用する必要があります。詳細については、 GKE に TPU マルチスライスをデプロイするをご覧ください。
    • コレクション: コレクション スケジューリングは、 Compute Engine では使用できません。コレクション スケジューリングを使用するには、GKE を使用する必要があります。詳細については、GKE ドキュメントの コレクション スケジューリング をご覧ください。

    次のステップ