本页面上的部分或全部信息可能不适用于 Trusted Cloud by S3NS。
降维概览
降维是指一组数学技术的通俗说法,用于捕获高维空间中的数据形状和关系,并将这些信息转换为低维空间。
在处理可能包含数千个特征的大型数据集时,降维非常重要。在如此庞大的数据空间中,数据点之间的距离范围越大,模型输出就越难解读。例如,很难了解哪些数据点更接近,因此代表更相似的数据。
降维有助于您减少特征数量,同时保留数据集最重要的特征。减少特征数量还有助于缩短使用这些数据作为输入的任何模型的训练时间。
BigQuery ML 提供以下降维模型:
您可以将 PCA 和自动编码器模型与 ML.PREDICT
或 ML.GENERATE_EMBEDDING
函数搭配使用,将数据嵌入到低维空间中,并与 ML.DETECT_ANOMALIES
函数搭配使用,来执行异常值检测。
您可以使用降维模型的输出来执行以下任务:
- 相似性搜索:根据数据点的嵌入查找彼此相似的数据点。这非常适合查找相关产品、推荐类似内容或识别重复或异常内容。
- 聚簇:将嵌入作为 k-means 模型的输入特征,以便根据数据点的相似性将其分组。这有助于您发现数据中的隐藏模式和数据洞见。
- 机器学习:将嵌入用作分类或回归模型的输入特征。
推荐的知识
通过使用 CREATE MODEL
语句和推理函数中的默认设置,即使您没有太多机器学习知识,也可以创建和使用降维模型。不过,如果您具备机器学习开发的基本知识,则有助于您优化数据和模型,从而获得更好的结果。我们建议您使用以下资源来熟悉机器学习技术和流程:
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-08-08。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["没有我需要的信息","missingTheInformationINeed","thumb-down"],["太复杂/步骤太多","tooComplicatedTooManySteps","thumb-down"],["内容需要更新","outOfDate","thumb-down"],["翻译问题","translationIssue","thumb-down"],["示例/代码问题","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-08-08。"],[[["Dimensionality reduction uses mathematical techniques to translate data from a high-dimensional space to a lower-dimensional space while retaining key characteristics."],["Reducing dimensionality simplifies large datasets with numerous features, making model output more interpretable by showing which data points are most similar."],["BigQuery ML offers Principal Component Analysis (PCA) and Autoencoder models for dimensionality reduction, which can then be used to perform tasks such as similarity search, clustering, or machine learning."],["Using dimensionality reduction models such as PCA and autoencoder can reduce the number of features and significantly reduce model training time."],["Even without extensive machine learning knowledge, you can create and use dimensionality reduction models with default settings, however, basic knowledge of machine learning will allow you to optimize both the data and model."]]],[]]