我目前正在从事一个需要对网站进行分类的数据库(例如 cnn.com = 新闻)的项目。我们只需要广泛的分类 - 我们不需要单独分类每个 URL。我们正在与此类数据库的通常供应商交谈,但我们收到的大多数报价都非常昂贵,而且它们通常会提出令人讨厌的要求——比如必须使用他们的 SDK 来查询数据库。
同时,我也一直在探索自己建立这样一个数据库的可能性。我意识到这不是一个 5 分钟的工作,所以我正在做大量的研究。
通过阅读有关该主题的各种论文,似乎朴素贝叶斯分类器通常是执行此操作的标准方法。然而,许多论文建议改进以提高其在网络分类中的准确性——通常是通过利用其他上下文信息,如超链接、标题标签、多词短语、URL、词频等。
我一直在针对 20 Newsgroup 测试数据集试验 Mahout 的朴素贝叶斯分类器,我可以看到它对网站分类的适用性,但我担心它在我的用例中的准确性。
有人知道在 Mahout 中扩展贝叶斯分类器以考虑其他属性的可行性吗?任何关于从哪里开始的指针将不胜感激。
或者,如果我完全叫错了树,请告诉我!