0

我已经设置了 mahout 来为新闻文章提供一些分类,所以我只能提取那些感兴趣的新闻文章。

我已经手动训练了这些新闻文章的标题,完成了大约 80,000 篇(我想要和不想要的文章)

我编写了一个应用程序,它输出最热门的单词及其分数,似乎某些关键词在最热门的单词上爬得很高。

一些所谓的顶级词是误报,它们之所以是顶级词,是因为每个标题页都有它们。

例如“stratford herald”(这是报纸的名称)——一旦模型已经创建,是否有办法删除它们?

有大约 20 个最重要的词我想简单地去掉(或者在提供最佳标签时让 mahout 忽略),但我不希望这成为输入练习(即过滤那些名字 id 喜欢排除在训练输入),我更愿意发布删除,因为我已经花了很多时间手动训练。

  • 家:1067
  • 赛特:1493
  • 详情:908
  • 返回:867
  • 普尔:1651
  • 套装:819
  • 帮助:743
  • 得到:812
  • 伯恩茅斯:14728
  • 新:2661
  • 雅芳:2684
  • 本地:3092
  • 樱桃:1244
  • 警察:1011
  • 结束:1813
  • 回声:6526
  • 空:79983
  • 之后:2292
  • 斯特拉特福:2657
  • 学校:1395
  • 工作:881
  • 职位:6982
  • 车:772
  • 先驱:2817
  • 护士:1174
  • 男:1335
  • 经理:1071
  • 天数:759
  • 时间:764
  • 理事会:824
  • 在:2676 标签数:2 训练集中的文档数:79983 标签的前 75 个词negative_article
  • 斯特拉特福:10748.598348617554
  • 先驱报:7579.555884361267
  • 雅芳:7484.692479610443
  • 上:7476.3635239601135
  • 本地:7426.4039397239685
  • 之后:3837.6605548858643
  • 男:3512.4373264312744
  • 警察:2586.899124145508
  • 超过:1537.557123184204
  • 女人:1434.1630334854126 标签的前 75 个词
  • 伯恩茅斯:39076.86379265785
  • 工作:24028.39960718155
  • 回声:22974.801107406616
  • 新:10888.526140213013
  • 斯特拉特福:8045.635549545288
  • 池:7493.278381347656
  • 结束:7077.8266887664795
  • 学校:7011.863867282867
  • 本地:7004.647378444672
  • 赛特:6961.040742397308
4

0 回答 0