1

我目前正在从事一个需要对网站进行分类的数据库(例如 cnn.com = 新闻)的项目。我们只需要广泛的分类 - 我们不需要单独分类每个 URL。我们正在与此类数据库的通常供应商交谈,但我们收到的大多数报价都非常昂贵,而且它们通常会提出令人讨厌的要求——比如必须使用他们的 SDK 来查询数据库。

同时,我也一直在探索自己建立这样一个数据库的可能性。我意识到这不是一个 5 分钟的工作,所以我正在做大量的研究。

通过阅读有关该主题的各种论文,似乎朴素贝叶斯分类器通常是执行此操作的标准方法。然而,许多论文建议改进以提高其在网络分类中的准确性——通常是通过利用其他上下文信息,如超链接、标题标签、多词短语、URL、词频等。

我一直在针对 20 Newsgroup 测试数据集试验 Mahout 的朴素贝叶斯分类器,我可以看到它对网站分类的适用性,但我担心它在我的用例中的准确性。

有人知道在 Mahout 中扩展贝叶斯分类器以考虑其他属性的可行性吗?任何关于从哪里开始的指针将不胜感激。

或者,如果我完全叫错了树,请告诉我!

4

1 回答 1

0

您可以随意控制输入。最后输入只是一个特征向量。特征向量的特征可以是单词或二元组——但它们也可以是任何你想要的。所以,是的,您可以通过根据需要修改输入来注入新功能。

如何最好地编织这些功能完全是另一个话题——没有一种将它们转换为数字的最佳方法。Mahout in Action很好地涵盖了这个 FWIW。

于 2011-11-02T16:49:12.013 回答