Alcune o tutte le informazioni in questa pagina potrebbero non essere applicabili a Trusted Cloud di S3NS.
Panoramica del clustering
Il clustering è una tecnica di machine learning non supervisionata che puoi utilizzare per raggruppare insieme record simili. Si tratta di un approccio utile quando vuoi comprendere quali gruppi o cluster sono presenti nei tuoi dati, ma non hai dati etichettati su cui addestrare un modello. Ad esempio, se disponi di dati non etichettati sugli acquisti di biglietti della metropolitana, puoi raggrupparli in base all'ora di acquisto per comprendere meglio quali periodi di tempo registrano il maggiore utilizzo della metropolitana. Per ulteriori informazioni, consulta Che cos'è il clustering?
I modelli K-means
sono ampiamente utilizzati per eseguire il clustering. Puoi utilizzare i modelli k-means con la
funzione ML.PREDICT
per raggruppare i dati o con la
funzione ML.DETECT_ANOMALIES
per eseguire il rilevamento di anomalie.
I modelli K-means utilizzano il
clustering basato sui centroidi per organizzare i dati in cluster.
Per ottenere informazioni sui centroidi di un modello k-means, puoi utilizzare la
funzione ML.CENTROIDS
.
Conoscenze consigliate
Utilizzando le impostazioni predefinite nelle istruzioni CREATE MODEL
e nelle funzioni di inferenza, puoi creare e utilizzare un modello di clustering anche senza molte conoscenze di ML. Tuttavia, avere conoscenze di base sullo sviluppo dell'ML e sui modelli di clustering in particolare ti aiuta a ottimizzare sia i dati sia il modello per ottenere risultati migliori. Ti consigliamo di utilizzare le seguenti risorse per acquisire familiarità con le tecniche e le procedure di ML:
Salvo quando diversamente specificato, i contenuti di questa pagina sono concessi in base alla licenza Creative Commons Attribution 4.0, mentre gli esempi di codice sono concessi in base alla licenza Apache 2.0. Per ulteriori dettagli, consulta le norme del sito di Google Developers. Java è un marchio registrato di Oracle e/o delle sue consociate.
Ultimo aggiornamento 2025-08-17 UTC.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Mancano le informazioni di cui ho bisogno","missingTheInformationINeed","thumb-down"],["Troppo complicato/troppi passaggi","tooComplicatedTooManySteps","thumb-down"],["Obsoleti","outOfDate","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Problema relativo a esempi/codice","samplesCodeIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-08-17 UTC."],[[["\u003cp\u003eClustering is an unsupervised machine learning technique that groups similar records together, useful for understanding data patterns without labeled training data.\u003c/p\u003e\n"],["\u003cp\u003eK-means models, a widely used clustering method, can be used with \u003ccode\u003eML.PREDICT\u003c/code\u003e to cluster data or with \u003ccode\u003eML.DETECT_ANOMALIES\u003c/code\u003e for anomaly detection.\u003c/p\u003e\n"],["\u003cp\u003eK-means models utilize centroid-based clustering, and information about a model's centroids can be obtained using the \u003ccode\u003eML.CENTROIDS\u003c/code\u003e function.\u003c/p\u003e\n"],["\u003cp\u003eWhile you can create and use clustering models with default settings without extensive machine learning knowledge, basic familiarity with ML and clustering models can improve results.\u003c/p\u003e\n"]]],[],null,["# Clustering overview\n===================\n\nClustering is an unsupervised machine learning technique you can use to group\nsimilar records together. It is a useful approach for when you want to\nunderstand what groups or clusters you have in your data, but don't have\nlabeled data to train a model on. For example, if you had unlabeled data about\nsubway ticket purchases, you could cluster that data by ticket purchase time to\nbetter understand what time periods have the heaviest subway usage. For more\ninformation, see\n[What is clustering?](https://developers.google.com/machine-learning/clustering/overview)\n\n[K-means models](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-create-kmeans)\nare widely used to perform clustering. You can use k-means models with the\n[`ML.PREDICT` function](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-predict)\nto cluster data, or with the\n[`ML.DETECT_ANOMALIES` function](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-detect-anomalies)\nto perform [anomaly detection](/bigquery/docs/anomaly-detection-overview).\n\nK-means models use\n[centroid-based clustering](https://developers.google.com/machine-learning/clustering/clustering-algorithms#centroid-based_clustering) to organize data into clusters.\nTo get information about a k-mean model's centroids, you can use the\n[`ML.CENTROIDS` function](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-centroids).\n\nRecommended knowledge\n---------------------\n\nBy using the default settings in the `CREATE MODEL` statements and the\ninference functions, you can create and use a clustering model even\nwithout much ML knowledge. However, having basic knowledge about\nML development, and clustering models in particular,\nhelps you optimize both your data and your model to\ndeliver better results. We recommend using the following resources to develop\nfamiliarity with ML techniques and processes:\n\n- [Machine Learning Crash Course](https://developers.google.com/machine-learning/crash-course)\n- [Intro to Machine Learning](https://www.kaggle.com/learn/intro-to-machine-learning)\n- [Intermediate Machine Learning](https://www.kaggle.com/learn/intermediate-machine-learning)\n- [Clustering](https://developers.google.com/machine-learning/clustering)"]]