3

是否有任何可靠/已部署的方法、算法或工具通过解析其网页来标记网站类型。

例如:论坛、博客、PressRelease 网站、新闻、E-Comm 等。

我正在寻找一些可以确定的定义明确的特征(静态规则)。如果没有,那么我希望机器学习模型可能会有所帮助。

建议/想法?

4

2 回答 2

4

如果从机器学习的角度来看,朴素贝叶斯分类器可能具有最大的工作/回报比。它的一个版本在Winnow中用于对新闻文章进行分类。

您将需要一组页面,每个页面都标有其正确的类别。然后从每个页面中提取单词或其他相关元素并将它们用作特征

Dobbs 博士有一篇关于实现朴素贝叶斯的文章

于 2011-01-10T19:31:00.170 回答
2

如果您有兴趣采用朴素贝叶斯方法(毕竟还有其他机器学习选项),那么我建议您阅读以下文档,该文档遵循“数据挖掘:实用机器学习工具和技术”中对该主题的介绍,威滕和弗兰克:

http://www.coli.uni-sb.de/~crocker/Teaching/Connectionist/lecture10_4up.pdf

于 2011-01-20T16:39:35.673 回答