我已经设置了 mahout 来为新闻文章提供一些分类,所以我只能提取那些感兴趣的新闻文章。
我已经手动训练了这些新闻文章的标题,完成了大约 80,000 篇(我想要和不想要的文章)
我编写了一个应用程序,它输出最热门的单词及其分数,似乎某些关键词在最热门的单词上爬得很高。
一些所谓的顶级词是误报,它们之所以是顶级词,是因为每个标题页都有它们。
例如“stratford herald”(这是报纸的名称)——一旦模型已经创建,是否有办法删除它们?
有大约 20 个最重要的词我想简单地去掉(或者在提供最佳标签时让 mahout 忽略),但我不希望这成为输入练习(即过滤那些名字 id 喜欢排除在训练输入),我更愿意发布删除,因为我已经花了很多时间手动训练。
- 家:1067
- 赛特:1493
- 详情:908
- 返回:867
- 普尔:1651
- 套装:819
- 帮助:743
- 得到:812
- 伯恩茅斯:14728
- 新:2661
- 雅芳:2684
- 本地:3092
- 樱桃:1244
- 警察:1011
- 结束:1813
- 回声:6526
- 空:79983
- 之后:2292
- 斯特拉特福:2657
- 学校:1395
- 工作:881
- 职位:6982
- 车:772
- 先驱:2817
- 护士:1174
- 男:1335
- 经理:1071
- 天数:759
- 时间:764
- 理事会:824
- 在:2676 标签数:2 训练集中的文档数:79983 标签的前 75 个词negative_article
- 斯特拉特福:10748.598348617554
- 先驱报:7579.555884361267
- 雅芳:7484.692479610443
- 上:7476.3635239601135
- 本地:7426.4039397239685
- 之后:3837.6605548858643
- 男:3512.4373264312744
- 警察:2586.899124145508
- 超过:1537.557123184204
- 女人:1434.1630334854126 标签的前 75 个词
- 伯恩茅斯:39076.86379265785
- 工作:24028.39960718155
- 回声:22974.801107406616
- 新:10888.526140213013
- 斯特拉特福:8045.635549545288
- 池:7493.278381347656
- 结束:7077.8266887664795
- 学校:7011.863867282867
- 本地:7004.647378444672
- 赛特:6961.040742397308