machine-learning - LSA - 特征选择

Question

我有这个文档的 SVD 分解

SVD分解

我已阅读此页面，但我不明白如何计算文档分离的最佳功能。

我知道：

S x Vt 给出了文档和特征之间的关系

U x S 给出了术语和特征之间的关系

但最佳特征选择的关键是什么？

score 5 · Accepted Answer

SVD 只关心输入，而不关心它们的标签。换句话说，它可以被视为一种无监督的技术。因此，如果不做任何进一步的假设，它就无法告诉您哪些特征有利于分离。

它确实告诉您，就仅使用基向量的子集重建原始数据而言，“基向量”比其他更重要。

不过，您可以按以下方式考虑 LSA（这只是解释，数学才是最重要的）：文档是由混合主题生成的。每个主题由一个长度向量表示n，它告诉您该主题中每个单词的可能性有多大。例如，如果主题是sports，那么类似 or 的词football比orgame更有可能bestsellermovie. 这些主题向量是 U 的列。为了生成文档（A 的列），您需要对主题进行线性组合。线性组合的系数是 Vt 的列 - 每列告诉您为了生成文档而要采用的主题比例。此外，每个主题都有一个整体“增益”因子，它告诉您该主题在您的文档集中有多么重要（也许您在 1000 个文档中只有一个关于体育的文档）。这些是奇异值 == S 的对角线。如果你扔掉较小的那些，你可以用更少的主题和少量的信息丢失来表示你的原始矩阵 A。当然，“小”是一个应用问题。

LSA 的一个缺点是，如何解释这些数字并不完全清楚——例如，它们不是概率。在文档中有“0.5”个单位是有意义的sports，但是有“-1”个单位是什么意思？

machine-learning - LSA - 特征选择

1 回答 1

Related

Reference