mahout - mahout 得分最高的单词和误报

Question

我已经设置了 mahout 来为新闻文章提供一些分类，所以我只能提取那些感兴趣的新闻文章。

我已经手动训练了这些新闻文章的标题，完成了大约 80,000 篇（我想要和不想要的文章）

我编写了一个应用程序，它输出最热门的单词及其分数，似乎某些关键词在最热门的单词上爬得很高。

一些所谓的顶级词是误报，它们之所以是顶级词，是因为每个标题页都有它们。

例如“stratford herald”（这是报纸的名称）——一旦模型已经创建，是否有办法删除它们？

有大约 20 个最重要的词我想简单地去掉（或者在提供最佳标签时让 mahout 忽略），但我不希望这成为输入练习（即过滤那些名字 id 喜欢排除在训练输入），我更愿意发布删除，因为我已经花了很多时间手动训练。

0 回答 0