潜在语义索引 (LSI) 是一种统计分类算法吗?为什么或者为什么不?
基本上,我试图弄清楚为什么统计分类的维基百科页面没有提到 LSI。我刚刚开始研究这些东西,我试图了解所有不同的分类方法是如何相互关联的。
潜在语义索引 (LSI) 是一种统计分类算法吗?为什么或者为什么不?
基本上,我试图弄清楚为什么统计分类的维基百科页面没有提到 LSI。我刚刚开始研究这些东西,我试图了解所有不同的分类方法是如何相互关联的。
不,它们并不完全相同。统计分类旨在尽可能清晰地将项目划分为类别——例如,明确决定项目 X 是否更像 A 组或 B 组中的项目。
LSI 旨在显示项目相似或不同的程度,主要是查找显示与指定项目相似程度的项目。虽然这很相似,但并不完全相同。
LSI/LSA 最终是一种降维技术,通常与最近邻算法相结合,使其成为分类系统。因此,它本身只是一种使用 SVD “索引”低维数据的方法。
机器学习的主要区别在于“监督”和“无监督”建模。
通常,“统计分类”一词是指监督模型,但并非总是如此。
使用监督方法,训练集包含一个“ground-truth”标签,您可以构建一个模型进行预测。当您评估模型时,目标是预测对真实标签(或概率分布)的最佳猜测,而您在评估时不会有这些猜测。通常有一个性能指标,并且很清楚正确与错误的答案是什么。
无监督分类方法试图将大量可能以复杂方式变化的数据点聚集成较少数量的“相似”类别。每个类别中的数据应该以某种“有趣”或“深刻”的方式相似。由于没有“基本事实”,您无法评估“对或错”,但“更多”与“更少”有趣或有用。
类似的评估时间,您可以将新示例放入可能的集群之一(清晰分类),或者给出某种加权来量化集群的“原型”看起来相似或不同的程度。
因此,在某些方面,监督和非监督模型可以产生一些“预测”,即类/集群标签的预测,但它们本质上是不同的。
通常,无监督模型的目标是为后续的监督模型提供更智能和更紧凑的输入。
您是否在 Wikipedia 上阅读过有关 LSI 的信息?它说它使用矩阵分解(SVD),它有时又用于分类。