Présentation du clustering

Le clustering est une technique de machine learning non supervisé que vous pouvez utiliser pour regrouper des enregistrements similaires. Il s'agit d'une approche utile lorsque vous souhaitez comprendre les groupes ou les clusters présents dans vos données, mais que vous ne disposez pas de données étiquetées pour entraîner un modèle. Par exemple, si vous disposez de données non étiquetées sur les achats de tickets de métro, vous pouvez les regrouper par heure d'achat pour mieux comprendre les périodes où le métro est le plus utilisé. Pour en savoir plus, consultez Qu'est-ce que le clustering ?

Les modèles de k-moyennes sont largement utilisés pour effectuer le clustering. Vous pouvez utiliser des modèles k-means avec la fonction ML.PREDICT pour regrouper des données en clusters ou avec la fonction ML.DETECT_ANOMALIES pour effectuer une détection des anomalies.

Les modèles k-moyennes utilisent le clustering basé sur les centroïdes pour organiser les données en clusters. Pour obtenir des informations sur les centroïdes d'un modèle de k-moyennes, vous pouvez utiliser la fonction ML.CENTROIDS.

En utilisant les paramètres par défaut dans les instructions CREATE MODEL et les fonctions d'inférence, vous pouvez créer et utiliser un modèle de clustering même sans grandes connaissances en ML. Toutefois, des connaissances de base sur le développement du ML et les modèles de clustering en particulier vous aideront à optimiser à la fois vos données et votre modèle pour obtenir de meilleurs résultats. Nous vous recommandons d'utiliser les ressources suivantes pour vous familiariser avec les techniques et les processus de ML :