Il est possible qu'une partie ou l'ensemble des informations de cette page ne s'appliquent pas au Cloud de confiance S3NS.
Présentation du clustering
Le clustering est une technique de machine learning non supervisé que vous pouvez utiliser pour regrouper des enregistrements similaires. Il s'agit d'une approche utile lorsque vous souhaitez comprendre les groupes ou les clusters présents dans vos données, mais que vous ne disposez pas de données étiquetées pour entraîner un modèle. Par exemple, si vous disposez de données non étiquetées sur les achats de tickets de métro, vous pouvez les regrouper par heure d'achat pour mieux comprendre les périodes où le métro est le plus utilisé. Pour en savoir plus, consultez Qu'est-ce que le clustering ?
Les modèles de k-moyennes sont largement utilisés pour effectuer le clustering. Vous pouvez utiliser des modèles k-means avec la fonction ML.PREDICT
pour regrouper des données en clusters ou avec la fonction ML.DETECT_ANOMALIES
pour effectuer une détection des anomalies.
Les modèles k-moyennes utilisent le clustering basé sur les centroïdes pour organiser les données en clusters.
Pour obtenir des informations sur les centroïdes d'un modèle de k-moyennes, vous pouvez utiliser la fonction ML.CENTROIDS
.
Connaissances recommandées
En utilisant les paramètres par défaut dans les instructions CREATE MODEL
et les fonctions d'inférence, vous pouvez créer et utiliser un modèle de clustering même sans grandes connaissances en ML. Toutefois, des connaissances de base sur le développement du ML et les modèles de clustering en particulier vous aideront à optimiser à la fois vos données et votre modèle pour obtenir de meilleurs résultats. Nous vous recommandons d'utiliser les ressources suivantes pour vous familiariser avec les techniques et les processus de ML :
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/08/15 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Il n'y a pas l'information dont j'ai besoin","missingTheInformationINeed","thumb-down"],["Trop compliqué/Trop d'étapes","tooComplicatedTooManySteps","thumb-down"],["Obsolète","outOfDate","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Mauvais exemple/Erreur de code","samplesCodeIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/08/15 (UTC)."],[[["\u003cp\u003eClustering is an unsupervised machine learning technique that groups similar records together, useful for understanding data patterns without labeled training data.\u003c/p\u003e\n"],["\u003cp\u003eK-means models, a widely used clustering method, can be used with \u003ccode\u003eML.PREDICT\u003c/code\u003e to cluster data or with \u003ccode\u003eML.DETECT_ANOMALIES\u003c/code\u003e for anomaly detection.\u003c/p\u003e\n"],["\u003cp\u003eK-means models utilize centroid-based clustering, and information about a model's centroids can be obtained using the \u003ccode\u003eML.CENTROIDS\u003c/code\u003e function.\u003c/p\u003e\n"],["\u003cp\u003eWhile you can create and use clustering models with default settings without extensive machine learning knowledge, basic familiarity with ML and clustering models can improve results.\u003c/p\u003e\n"]]],[],null,["# Clustering overview\n===================\n\nClustering is an unsupervised machine learning technique you can use to group\nsimilar records together. It is a useful approach for when you want to\nunderstand what groups or clusters you have in your data, but don't have\nlabeled data to train a model on. For example, if you had unlabeled data about\nsubway ticket purchases, you could cluster that data by ticket purchase time to\nbetter understand what time periods have the heaviest subway usage. For more\ninformation, see\n[What is clustering?](https://developers.google.com/machine-learning/clustering/overview)\n\n[K-means models](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-create-kmeans)\nare widely used to perform clustering. You can use k-means models with the\n[`ML.PREDICT` function](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-predict)\nto cluster data, or with the\n[`ML.DETECT_ANOMALIES` function](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-detect-anomalies)\nto perform [anomaly detection](/bigquery/docs/anomaly-detection-overview).\n\nK-means models use\n[centroid-based clustering](https://developers.google.com/machine-learning/clustering/clustering-algorithms#centroid-based_clustering) to organize data into clusters.\nTo get information about a k-mean model's centroids, you can use the\n[`ML.CENTROIDS` function](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-centroids).\n\nRecommended knowledge\n---------------------\n\nBy using the default settings in the `CREATE MODEL` statements and the\ninference functions, you can create and use a clustering model even\nwithout much ML knowledge. However, having basic knowledge about\nML development, and clustering models in particular,\nhelps you optimize both your data and your model to\ndeliver better results. We recommend using the following resources to develop\nfamiliarity with ML techniques and processes:\n\n- [Machine Learning Crash Course](https://developers.google.com/machine-learning/crash-course)\n- [Intro to Machine Learning](https://www.kaggle.com/learn/intro-to-machine-learning)\n- [Intermediate Machine Learning](https://www.kaggle.com/learn/intermediate-machine-learning)\n- [Clustering](https://developers.google.com/machine-learning/clustering)"]]