bayesian - Mahout 中朴素贝叶斯分类器对网站分类的适用性

Question

我目前正在从事一个需要对网站进行分类的数据库（例如 cnn.com = 新闻）的项目。我们只需要广泛的分类 - 我们不需要单独分类每个 URL。我们正在与此类数据库的通常供应商交谈，但我们收到的大多数报价都非常昂贵，而且它们通常会提出令人讨厌的要求——比如必须使用他们的 SDK 来查询数据库。

同时，我也一直在探索自己建立这样一个数据库的可能性。我意识到这不是一个 5 分钟的工作，所以我正在做大量的研究。

通过阅读有关该主题的各种论文，似乎朴素贝叶斯分类器通常是执行此操作的标准方法。然而，许多论文建议改进以提高其在网络分类中的准确性——通常是通过利用其他上下文信息，如超链接、标题标签、多词短语、URL、词频等。

我一直在针对 20 Newsgroup 测试数据集试验 Mahout 的朴素贝叶斯分类器，我可以看到它对网站分类的适用性，但我担心它在我的用例中的准确性。

有人知道在 Mahout 中扩展贝叶斯分类器以考虑其他属性的可行性吗？任何关于从哪里开始的指针将不胜感激。

或者，如果我完全叫错了树，请告诉我！

score 0 · Accepted Answer

您可以随意控制输入。最后输入只是一个特征向量。特征向量的特征可以是单词或二元组——但它们也可以是任何你想要的。所以，是的，您可以通过根据需要修改输入来注入新功能。

如何最好地编织这些功能完全是另一个话题——没有一种将它们转换为数字的最佳方法。Mahout in Action很好地涵盖了这个 FWIW。

1 回答 1