0

问题:有没有一种简单的方法可以查看与每个奇异值相关的最重要的词?

背景:我已将 Mahout 的奇异值分解工具应用于一组新闻文章。这些文章来自两个主题:1)体育,2)商业。我想看看与每个奇异值相关的最重要的词。例如,对于一个奇异值,我可能期望最突出的词是体育术语:得分、团队、球员、教练。对于另一个奇异值,我可能希望看到商业术语:公司、利润、收入。

我的方法:我正在考虑为每个奇异值制作一个文件,其中——对于给定的奇异值——单词按重要性降序排列。这只是一个想法。我愿意接受建议。

下面是到目前为止我用来生成 Mahout 奇异值的代码:

/mahout-distribution-0.7/bin/mahout svd 
-i /vectors/tfidf-vectors/
-o /svd-values/
--numRows 100 
--numCols 591 
-r 100
4

1 回答 1

1

没有办法直接在项目中执行此操作,而且我自己也不知道该代码。但我可以告诉你大致的想法。

在 SVD 中,您会得到像 A ~= US V' 这样的分解。假设 A 是您的文档术语矩阵。所以 A 的列——以及 V' 的列——对应于单词。V' 的行对应于奇异值(在 S 中)。事实上,它们是正确的奇异向量。您可以直接从这些中了解奇异向量与单词的关系。最大的绝对值是最重要的词。

于 2013-08-26T00:06:29.637 回答