降维概览

降维是指一组数学技术的通俗说法,用于捕获高维空间中的数据形状和关系,并将这些信息转换为低维空间。

在处理可能包含数千个特征的大型数据集时,降维非常重要。在如此庞大的数据空间中,数据点之间的距离范围越大,模型输出就越难解读。例如,很难了解哪些数据点更接近,因此代表更相似的数据。 降维有助于您减少特征数量,同时保留数据集最重要的特征。减少特征数量还有助于缩短使用这些数据作为输入的任何模型的训练时间。

BigQuery ML 提供以下降维模型:

您可以将 PCA 和自动编码器模型与 ML.PREDICTML.GENERATE_EMBEDDING 函数搭配使用,将数据嵌入到低维空间中,并与 ML.DETECT_ANOMALIES 函数搭配使用,来执行异常值检测

您可以使用降维模型的输出来执行以下任务:

  • 相似性搜索:根据数据点的嵌入查找彼此相似的数据点。这非常适合查找相关产品、推荐类似内容或识别重复或异常内容。
  • 聚簇:将嵌入作为 k-means 模型的输入特征,以便根据数据点的相似性将其分组。这有助于您发现数据中的隐藏模式和数据洞见。
  • 机器学习:将嵌入用作分类或回归模型的输入特征。

通过使用 CREATE MODEL 语句和推理函数中的默认设置,即使您没有太多机器学习知识,也可以创建和使用降维模型。不过,如果您具备机器学习开发的基本知识,则有助于您优化数据和模型,从而获得更好的结果。我们建议您使用以下资源来熟悉机器学习技术和流程: