Présentation de la réduction de la dimensionnalité

La réduction de la dimensionnalité est le terme courant désignant un ensemble de techniques mathématiques utilisées pour capturer la forme et les relations des données dans un espace de grande dimension et traduire ces informations dans un espace de petite dimension.

La réduction de la dimensionnalité est importante lorsque vous travaillez avec de grands ensembles de données pouvant contenir des milliers de caractéristiques. Dans un espace de données aussi vaste, la plus grande variété de distances entre les points de données peut rendre la sortie du modèle plus difficile à interpréter. Par exemple, il est difficile de comprendre quels points de données sont les plus proches et représentent donc des données plus similaires. La réduction de la dimensionnalité vous aide à réduire le nombre de caractéristiques tout en conservant les caractéristiques les plus importantes de l'ensemble de données. La réduction du nombre de caractéristiques permet également de réduire le temps d'entraînement de tous les modèles qui utilisent les données comme entrée.

BigQuery ML propose les modèles suivants pour la réduction de la dimensionnalité :

Vous pouvez utiliser des modèles ACP et auto-encodeur avec les fonctions ML.PREDICT ou ML.GENERATE_EMBEDDING pour intégrer des données dans un espace de dimension inférieure, et avec la fonction ML.DETECT_ANOMALIES pour effectuer la détection des anomalies.

Vous pouvez utiliser la sortie des modèles de réduction de la dimensionnalité pour des tâches telles que les suivantes :

  • Recherche par similarité : trouvez des points de données qui se ressemblent en fonction de leurs embeddings. C'est un excellent moyen de trouver des produits associés, de recommander des contenus similaires ou d'identifier des éléments en double ou anormaux.
  • Clustering : utilisez des embeddings comme caractéristiques d'entrée pour les modèles k-means afin de regrouper les points de données en fonction de leurs similitudes. Cela peut vous aider à découvrir des modèles et des insights cachés dans vos données.
  • Machine learning : utilisez les embeddings comme caractéristiques d'entrée pour les modèles de classification ou de régression.

En utilisant les paramètres par défaut dans les instructions CREATE MODEL et les fonctions d'inférence, vous pouvez créer et utiliser un modèle de réduction de dimensionnalité même sans grandes connaissances en ML. Toutefois, des connaissances de base sur le développement du ML vous aideront à optimiser à la fois vos données et votre modèle pour obtenir de meilleurs résultats. Nous vous recommandons d'utiliser les ressources suivantes pour vous familiariser avec les techniques et les processus de ML :