Présentation de l'analyse des contributions
Ce document vous aidera à comprendre le cas d'utilisation de l'analyse de la contribution et les options permettant de l'effectuer dans BigQuery ML.
Qu'est-ce que l'analyse des contributions ?
L'analyse des contributions, également appelée analyse des principaux facteurs, est une méthode utilisée pour générer des insights sur les modifications apportées aux métriques clés de vos données multidimensionnelles. Par exemple, vous pouvez utiliser l'analyse des contributions pour voir quelles données ont contribué à une variation des revenus sur deux trimestres, ou pour comparer deux ensembles de données d'entraînement afin de comprendre les changements de performances d'un modèle de ML.
L'analyse des contributions est une forme d'analyse augmentée, qui consiste à utiliser l'intelligence artificielle (IA) pour améliorer et automatiser l'analyse et la compréhension des données. L'analyse des contributions remplit l'un des objectifs clés de l'analyse augmentée, qui consiste à aider les utilisateurs à identifier des tendances dans leurs données.
Analyse des contributions avec BigQuery ML
L'analyse des contributions détecte les segments de données qui montrent des changements dans une métrique donnée en comparant un ensemble de données de test à un ensemble de données de contrôle. Par exemple, vous pouvez utiliser un instantané de table des données de vente prises à la fin de l'année 2023 comme données de test et un instantané de table pris à la fin de l'année 2022 comme données de contrôle. Vous pourrez ensuite les comparer pour voir comment vos ventes ont évolué au fil du temps. L'analyse de la contribution peut vous indiquer quel segment de données (par exemple, les clients en ligne dans une région spécifique) a entraîné la plus grande variation des ventes d'une année à l'autre.
Une métrique est la valeur numérique utilisée par les modèles d'analyse des contributions pour mesurer et comparer les modifications entre les données de test et de contrôle. Vous pouvez spécifier les types de métriques suivants avec un modèle d'analyse des contributions :
- Sommable : additionne les valeurs d'une colonne de métriques que vous spécifiez, puis détermine un total pour chaque segment de données.
- Ratio cumulable : additionne les valeurs de deux colonnes numériques que vous spécifiez et détermine le ratio entre elles pour chaque segment de données.
- Sommable par catégorie : somme la valeur d'une colonne numérique et la divise par le nombre de valeurs distinctes d'une colonne de catégorie.
Un segment est une tranche de données identifiée par une combinaison donnée de valeurs de dimension. Par exemple, pour un modèle d'analyse des contributions basé sur les dimensions store_number, customer_id et day, chaque combinaison unique de ces valeurs de dimension représente un segment. Dans le tableau suivant, chaque ligne représente un segment différent :
store_number |
customer_id |
day |
| Magasin 1 | ||
| Magasin 1 | Client 1 | |
| Magasin 1 | Client 1 | Lundi |
| Magasin 1 | Client 1 | Mardi |
| Magasin 1 | Client 2 | |
| Magasin 2 |
Analyser des données sans modèle
Si vous avez moins de 12 dimensions et que vous utilisez une métrique cumulable, vous pouvez effectuer une analyse de contribution à l'aide de la TVF AI.KEY_DRIVERS.
Pour la plupart des applications, nous vous recommandons d'utiliser la fonction AI.KEY_DRIVERS plutôt que de créer un modèle, car elle offre une syntaxe simplifiée, des résultats plus rapides et un élagage automatique. Le résultat de la fonction se compose de lignes d'insights, où chaque insight correspond à un segment et fournit les métriques correspondantes du segment.
Utiliser un modèle d'analyse des contributions
Si vous avez besoin de plus de 12 dimensions ou d'autres types de métriques, vous pouvez créer un modèle d'analyse des contributions avec l'instruction CREATE MODEL.
Pour réduire le temps de création du modèle, spécifiez un seuil de support a priori. Un seuil de support a priori vous permet d'élaguer les segments petits et moins pertinents afin que le modèle n'utilise que les segments les plus grands et les plus pertinents.
Une fois que vous avez créé un modèle d'analyse des contributions, vous pouvez utiliser la fonction ML.GET_INSIGHTS pour récupérer les informations sur les métriques calculées par le modèle. Le résultat de la fonction se compose de lignes d'insights, où chaque insight correspond à un segment et fournit les métriques correspondantes du segment.
Parcours utilisateur de l'analyse des contributions
Le tableau suivant décrit les instructions et les fonctions que vous pouvez utiliser avec l'analyse des contributions :
| Instruction ou fonction | Prétraiter des caractéristiques | Génération d'insights | Tutoriels |
|---|---|---|---|
AI.KEY_DRIVERS |
Prétraitement manuel | N/A | Exemple d'analyse des contributions sur les données de vente de boissons alcoolisées dans l'Iowa |
CREATE MODEL |
Prétraitement manuel | ML.GET_INSIGHTS |