Cloud Storage Rapid を使用して AI/ML とデータ分析用のストレージを最適化する

Cloud Storage には、人工知能(AI)、機械学習(ML)、データ集約型分析など、高いパフォーマンスを必要とするユースケースでデータ ストレージを最適化するためのさまざまなオプションが用意されています。このページでは、これらのオプションについて説明し、ワークロードのニーズに適したオプションを選択する手順について説明します。

Cloud Storage Rapid プロダクト ファミリー

Cloud Storage Rapid は、Cloud Storage の高パフォーマンス プロダクト ファミリーで、AI/ML ワークロードとデータ分析ワークロードのデータ ボトルネックを解消するように設計されています。AI/ML モデルの複雑さが増し、データセットがペタバイト規模に達すると、ストレージのパフォーマンスが、高価な GPU クラスタと TPU クラスタの主なボトルネックになることがよくあります。Cloud Storage Rapid は、ゾーン アーキテクチャを活用して、データをコンピューティング リソースに近づけ、アクセラレータの飽和状態を維持し、トレーニング時間を短縮し、最も要求の厳しいワークロードの総所有コスト(TCO)を削減します。

Cloud Storage Rapid には、Rapid Bucket と Rapid Cache が含まれています。

Rapid Bucket を使用して Rapid Storage ストレージ クラスにデータを保存する

Rapid Bucket は、ゾーンをバケットのロケーションとして定義することで、Rapid Storageにデータを保存できる、高パフォーマンスのゾーン オブジェクト ストレージ ソリューションです。Rapid Bucket を使用すると、AI アクセラレータと同じ物理ゾーンにデータを配置できるため、他の Cloud Storage プロダクトよりも低いレイテンシと高いスループットを実現できます。 Rapid Bucket は、1 ミリ秒未満のレイテンシ、最大 15 TB/秒の集約スループットを実現し、1 秒あたり最大 2,000 万件の秒間クエリ数(QPS)をサポートします。

Rapid Bucket は、ステートフルなストリーミング オブジェクトの追加をサポートしているため、アプリケーションは既存のオブジェクトにリアルタイムでデータを書き込むことができます。この機能により、高コストなオブジェクトの書き換えを回避し、データの即時可視化を実現できます。これにより、コンシューマー アプリケーションはデータの書き込み中にデータを読み取ることができます。

最適な用途: 超低レイテンシと高い決定論的パフォーマンスを必要とする AI モデルのトレーニング、チェックポインティング、サービング

このオプションを使用する場合: 読み取りと 書き込みの両方に専用の高パフォーマンスが必要な場合

Rapid Bucket でゾーンバケットを作成する方法については、 ゾーンバケットを作成するをご覧ください。

Rapid Cache でゾーンキャッシュを作成する

Rapid Cache は、フルマネージドの SSD ベースのゾーン読み取りキャッシュで、API を変更することなく、既存のリージョン バケット、デュアルリージョン バケット、マルチリージョン バケットで使用できます。キャッシュには、ワークロードのニーズに応じて自動的にスケールアップまたはスケールダウンする一時的なストレージ容量と 帯域幅が用意されています。データは、キャッシュと同じゾーンにある VM によって読み取られた場合に、バケットからキャッシュに自動的に取り込まれます。

Rapid Cache は、2.5 TB/秒の集約スループットを提供し、VM と同じゾーンにデータを配置することで、読み取りのレイテンシを短縮します。 キャッシュから提供されるデータは、データの提供が高速になるだけでなく、バケットから直接提供されるデータよりも、データ転送料金、データ取得料金、運用費用が低くなる可能性があります。詳細については、Rapid Cache のメリットをご覧ください。

最適な用途: 既存の Cloud Storage バケットから高い読み取り帯域幅を必要とする AI モデルのトレーニング、チェックポインティングの復元、サービング

このオプションを使用する場合: Cloud Storage バケットに既存のデータ ストレージがあり、高速化したい場合

Rapid Cache の使用方法については、キャッシュを作成して管理するをご覧ください。