我有这个文档的 SVD 分解
我已阅读此页面,但我不明白如何计算文档分离的最佳功能。
我知道:
S x Vt 给出了文档和特征之间的关系
U x S 给出了术语和特征之间的关系
但最佳特征选择的关键是什么?
我有这个文档的 SVD 分解
我已阅读此页面,但我不明白如何计算文档分离的最佳功能。
我知道:
S x Vt 给出了文档和特征之间的关系
U x S 给出了术语和特征之间的关系
但最佳特征选择的关键是什么?
SVD 只关心输入,而不关心它们的标签。换句话说,它可以被视为一种无监督的技术。因此,如果不做任何进一步的假设,它就无法告诉您哪些特征有利于分离。
它确实告诉您,就仅使用基向量的子集重建原始数据而言,“基向量”比其他更重要。
不过,您可以按以下方式考虑 LSA(这只是解释,数学才是最重要的): 文档是由混合主题生成的。每个主题由一个长度向量表示n
,它告诉您该主题中每个单词的可能性有多大。例如,如果主题是sports
,那么类似 or 的词football
比orgame
更有可能bestseller
movie
. 这些主题向量是 U 的列。为了生成文档(A 的列),您需要对主题进行线性组合。线性组合的系数是 Vt 的列 - 每列告诉您为了生成文档而要采用的主题比例。此外,每个主题都有一个整体“增益”因子,它告诉您该主题在您的文档集中有多么重要(也许您在 1000 个文档中只有一个关于体育的文档)。这些是奇异值 == S 的对角线。如果你扔掉较小的那些,你可以用更少的主题和少量的信息丢失来表示你的原始矩阵 A。当然,“小”是一个应用问题。
LSA 的一个缺点是,如何解释这些数字并不完全清楚——例如,它们不是概率。在文档中有“0.5”个单位是有意义的sports
,但是有“-1”个单位是什么意思?