貢献度分析の概要

このドキュメントでは、貢献度分析のユースケースと、BigQuery ML で貢献度分析を実行するためのオプションについて説明します。

貢献度分析とは

貢献度分析(主要因分析)は、多次元データの主な指標の変化について分析情報を生成するために使用される方法です。たとえば、貢献度分析を使用して、2 つの四半期にわたる収益額の変化にどのデータが貢献したかを確認する、または、2 つのトレーニング データセットを比較して ML モデルのパフォーマンスの変化を把握できます。

貢献度分析は拡張分析の一種です。拡張分析とは、人工知能(AI)を使用してデータの分析と理解を強化し、自動化することです。貢献度分析は、拡張分析の主要な目標の一つであるデータ内のパターンの検出を支援します。

BigQuery ML を使用した貢献度分析

BigQuery ML で貢献度分析を使用するには、CREATE MODEL ステートメントを使用して貢献度分析モデルを作成します。

貢献度分析モデルは、テスト用のデータセットとコントロール用のデータセットを比較し、特定の指標の変化を示すデータのセグメントを検出します。たとえば、2023 年末に取得した販売データのテーブル スナップショットをテスト用のデータとして、2022 年末に取得したテーブル スナップショットをコントロール用のデータとして使用し、比較することで売上の推移を確認できます。貢献度分析モデルを使用すると、ある年から翌年にかけての売上の変化に最も大きく貢献したデータ セグメント(特定のリージョンのオンライン購入者など)を確認できます。

指標は、貢献度分析モデルがテスト用データとコントロール用データ間での変化を測定して比較するために使用する数値です。貢献度分析モデルでは、次のタイプの指標を指定できます。

  • 合計可能: 指定した指標列の値を合計し、データのセグメントごとに合計を決定します。
  • 合計可能な比率: 指定した 2 つの数値列の値を合計し、データのセグメントごとにそれらの比率を決定します。
  • カテゴリ別に合計可能: 数値列の値を合計し、カテゴリ列の一意の値の数で割ります。

セグメントは、項目値の特定の組み合わせで識別されるデータのスライスです。たとえば、store_numbercustomer_idday の項目に基づく貢献度分析モデルの場合、これらの各項目値の一意の組み合わせはセグメントを表します。次のテーブルでは、各行が異なるセグメントを表しています。

store_number customer_id day
店舗 1
店舗 1 顧客 1
店舗 1 顧客 1 月曜日
店舗 1 顧客 1 火曜日
店舗 1 顧客 2
店舗 2

モデルの作成時間を短縮するには、apriori のサポートしきい値を指定します。apriori のサポートしきい値を指定すると、小さく関連性の低いセグメントを削除して、モデルで最も大きく関連性の高いセグメントのみを使用できます。

貢献度分析モデルを作成した後に、ML.GET_INSIGHTS 関数を使用すると、モデルで計算された指標の情報を取得できます。モデル出力は分析情報の行で構成されます。各分析情報はセグメントに対応し、セグメントに対応する指標を提供します。

次のステップ