Présentation de l'analyse des contributions

Ce document vous permet de comprendre le cas d'utilisation de l'analyse de la contribution et les options permettant d'effectuer une analyse de la contribution dans BigQuery ML.

Qu'est-ce que l'analyse des contributions ?

L'analyse des contributions, également appelée analyse des principaux facteurs, est une méthode utilisée pour générer des insights sur les modifications apportées aux métriques clés de vos données multidimensionnelles. Par exemple, vous pouvez utiliser l'analyse des contributions pour voir quelles données ont contribué à une variation des revenus sur deux trimestres, ou pour comparer deux ensembles de données d'entraînement afin de comprendre les changements de performances d'un modèle de ML.

L'analyse des contributions est une forme d'analyse augmentée, qui consiste à utiliser l'intelligence artificielle (IA) pour améliorer et automatiser l'analyse et la compréhension des données. L'analyse des contributions permet d'atteindre l'un des objectifs clés de l'analyse augmentée, à savoir aider les utilisateurs à identifier des tendances dans leurs données.

Analyse des contributions avec BigQuery ML

Pour utiliser l'analyse des contributions dans BigQuery ML, créez un modèle d'analyse des contributions avec l'instruction CREATE MODEL.

Un modèle d'analyse des contributions détecte les segments de données qui montrent des changements dans une métrique donnée en comparant un ensemble de données de test à un ensemble de données de contrôle. Par exemple, vous pouvez utiliser un instantané de tableau des données de vente prises à la fin de l'année 2023 comme données de test et un instantané de tableau pris à la fin de l'année 2022 comme données de contrôle. Vous pouvez ensuite les comparer pour voir comment vos ventes ont évolué au fil du temps. Un modèle d'analyse des contributions peut vous indiquer quel segment de données (par exemple, les clients en ligne dans une région spécifique) a entraîné la plus grande variation des ventes d'une année à l'autre.

Une métrique est la valeur numérique utilisée par les modèles d'analyse des contributions pour mesurer et comparer les modifications entre les données de test et de contrôle. Vous pouvez spécifier les types de métriques suivants avec un modèle d'analyse des contributions :

  • Sommable : additionne les valeurs d'une colonne de métrique que vous spécifiez, puis détermine un total pour chaque segment de données.
  • Ratio cumulable : additionne les valeurs de deux colonnes numériques que vous spécifiez et détermine le ratio entre elles pour chaque segment de données.
  • Sommable par catégorie : somme la valeur d'une colonne numérique et la divise par le nombre de valeurs distinctes d'une colonne de catégorie.

Un segment est une tranche de données identifiée par une combinaison donnée de valeurs de dimension. Par exemple, pour un modèle d'analyse des contributions basé sur les dimensions store_number, customer_id et day, chaque combinaison unique de ces valeurs de dimension représente un segment. Dans le tableau suivant, chaque ligne représente un segment différent :

store_number customer_id day
Magasin 1
Magasin 1 Client 1
Magasin 1 Client 1 Lundi
Magasin 1 Client 1 Mardi
Magasin 1 Client 2
Magasin 2

Pour réduire le temps de création du modèle, spécifiez un seuil de support a priori. Un seuil de support a priori vous permet d'éliminer les segments petits et moins pertinents afin que le modèle n'utilise que les segments les plus grands et les plus pertinents.

Une fois que vous avez créé un modèle d'analyse des contributions, vous pouvez utiliser la fonction ML.GET_INSIGHTS pour récupérer les informations sur les métriques calculées par le modèle. La sortie du modèle se compose de lignes d'insights, où chaque insight correspond à un segment et fournit les métriques correspondantes du segment.

Étapes suivantes