mapreduce - Mahout 文本挖掘 - 给定奇异值的最重要单词

Question

问题：有没有一种简单的方法可以查看与每个奇异值相关的最重要的词？

背景：我已将 Mahout 的奇异值分解工具应用于一组新闻文章。这些文章来自两个主题：1）体育，2）商业。我想看看与每个奇异值相关的最重要的词。例如，对于一个奇异值，我可能期望最突出的词是体育术语：得分、团队、球员、教练。对于另一个奇异值，我可能希望看到商业术语：公司、利润、收入。

我的方法：我正在考虑为每个奇异值制作一个文件，其中——对于给定的奇异值——单词按重要性降序排列。这只是一个想法。我愿意接受建议。

下面是到目前为止我用来生成 Mahout 奇异值的代码：

/mahout-distribution-0.7/bin/mahout svd 
-i /vectors/tfidf-vectors/
-o /svd-values/
--numRows 100 
--numCols 591 
-r 100

score 1 · Accepted Answer

没有办法直接在项目中执行此操作，而且我自己也不知道该代码。但我可以告诉你大致的想法。

在 SVD 中，您会得到像 A ~= US V' 这样的分解。假设 A 是您的文档术语矩阵。所以 A 的列——以及 V' 的列——对应于单词。V' 的行对应于奇异值（在 S 中）。事实上，它们是正确的奇异向量。您可以直接从这些中了解奇异向量与单词的关系。最大的绝对值是最重要的词。

1 回答 1