このページの情報の一部またはすべては、S3NS の Trusted Cloud には適用されない場合があります。
次元削減の概要
次元削減は、高次元空間のデータの形状と関係をキャプチャし、この情報を低次元空間に変換するために使用される一連の数学的手法を表す一般的な用語です。
次元削減は、数千の特徴を含む大規模なデータセットを扱う場合に重要です。このような大規模なデータ空間では、データポイント間の距離の範囲が広くなると、モデルの出力を解釈しにくくなる可能性があります。たとえば、どのデータポイントがより近接していて、したがってより類似したデータを表しているかを把握することが難しくなります。次元削減は、データセットの最も重要な特性を保持しながら特徴の数を減らすのに役立ちます。特徴の数を減らすと、データを入力として使用するモデルのトレーニング時間も短縮できます。
BigQuery ML には、次のようなモデルが用意されています。
PCA モデルやオートエンコーダ モデルと ML.PREDICT
関数または ML.GENERATE_EMBEDDING
関数を使用してデータを低次元空間にエンベディングし、ML.DETECT_ANOMALIES
関数で異常検出を行うことができます。
次のようなタスクに、次元削減モデルの出力を使用できます。
- 類似検索: エンベディングに基づいて、互いに類似するデータポイントを見つけます。これは、関連する商品の検索、類似コンテンツのおすすめ、重複または異常なアイテムの特定に役立ちます。
- クラスタリング: エンベディングを K 平均法モデルの入力特徴として使用し、類似性に基づいてデータポイントをグループ化します。これにより、データの隠れたパターンや分析情報を発見できます。
- ML: エンベディングを分類モデルまたは回帰モデルの入力特徴量として使用します。
推奨される知識
CREATE MODEL
ステートメントと推論関数のデフォルト設定を使用すると、ML の知識があまりなくても次元削減モデルを作成して使用できます。ただし、ML 開発に関する基本的な知識があれば、データとモデルの両方を最適化して、より良い結果を得るのに役立ちます。ML の手法とプロセスに習熟するために、次のリソースの活用をおすすめします。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-08-08 UTC。
[[["わかりやすい","easyToUnderstand","thumb-up"],["問題の解決に役立った","solvedMyProblem","thumb-up"],["その他","otherUp","thumb-up"]],[["必要な情報がない","missingTheInformationINeed","thumb-down"],["複雑すぎる / 手順が多すぎる","tooComplicatedTooManySteps","thumb-down"],["最新ではない","outOfDate","thumb-down"],["翻訳に関する問題","translationIssue","thumb-down"],["サンプル / コードに問題がある","samplesCodeIssue","thumb-down"],["その他","otherDown","thumb-down"]],["最終更新日 2025-08-08 UTC。"],[[["Dimensionality reduction uses mathematical techniques to translate data from a high-dimensional space to a lower-dimensional space while retaining key characteristics."],["Reducing dimensionality simplifies large datasets with numerous features, making model output more interpretable by showing which data points are most similar."],["BigQuery ML offers Principal Component Analysis (PCA) and Autoencoder models for dimensionality reduction, which can then be used to perform tasks such as similarity search, clustering, or machine learning."],["Using dimensionality reduction models such as PCA and autoencoder can reduce the number of features and significantly reduce model training time."],["Even without extensive machine learning knowledge, you can create and use dimensionality reduction models with default settings, however, basic knowledge of machine learning will allow you to optimize both the data and model."]]],[]]