0

我正在开发一个新闻分类系统,其中将特定新闻项目分配给组织或公司名称。例如,标签为“Apple 将于 2012 年 9 月推出新 iPhone”的新闻被归类为“Apple”新闻。到目前为止,在使用苹果新闻、谷歌新闻、微软新闻、三星新闻、美国银行新闻等一系列主题训练分类器后,效果非常好,我从单个训练模型中获得了近 99% 的正确分类实例。现在的问题是将“三星和谷歌准备攻击苹果”这样的新闻分为“苹果”、“三星”和“谷歌”三个主题。

我的问题是如何使用 Mahouts 分类将单个项目分类为多个类。我在这个线程http://mail-archives.apache.org/mod_mbox/mahout-user/201206.mbox/%3C20120607223156.GA26283@opus.istwok.net%3E看到了一个类似的问题。

Ted Dunning 给出了一个有趣的答案,即为多个主题制作单独的类别,但在我的情况下,组合很多。我必须将新闻分类为近 15,000 家公司,实际上,任何新闻都可以是 15000 家公司中的任何一家的混合体。因此,排除了将组合作为一个单独的类别!第二个建议是在层次结构中安排主题,这也不适用于这里,因为公司名称不收敛到任何基本类别。

为 15000 个主题拥有 15000 个模型就可以了,但听起来也不太合理!

那么,对多主题新闻进行分类的正确方法应该是什么?

谢谢!

4

1 回答 1

0

如果您遇到对数据进行多重标记的问题,最好使用专门针对它的工具。目前 mahout 不支持多标签(有一些方法可以做到,但它们就像变通方法)。这里有一些工具可以对您的数据进行多重标记

http://mulan.sourceforge.net/

http://meka.sourceforge.net/

于 2012-08-20T11:32:26.330 回答