0

我有一本大约 1500 字的字典。不是所有这 1500 个单词都可以用作文本的主题(其中许多是我字典中的杂音,也许只有 2-10% 可以用作主题),但是我想给文档提供的主题可以是在这 1500 个单词中找到。

因此我应该从哪里开始,什么算法可以工作?谢谢!

4

1 回答 1

0

您可以计算人们分配的每个主题在这些文档中出现的次数。要考虑单词的形态变化,您可以使用词干分析器或词形还原器(例如,Java 的斯坦福 PoS 标记器或 Python 的 NLTK)。然后,您可以根据它们在整个文档集中的数量来选择最有用的主题,或者使用 tf-idf (http://en.wikipedia.org/wiki/Tf%E2%80%93idf - 在底部页面上有一些实现的链接)。

于 2012-11-30T17:22:28.830 回答