是否有任何可靠/已部署的方法、算法或工具通过解析其网页来标记网站类型。
例如:论坛、博客、PressRelease 网站、新闻、E-Comm 等。
我正在寻找一些可以确定的定义明确的特征(静态规则)。如果没有,那么我希望机器学习模型可能会有所帮助。
建议/想法?
是否有任何可靠/已部署的方法、算法或工具通过解析其网页来标记网站类型。
例如:论坛、博客、PressRelease 网站、新闻、E-Comm 等。
我正在寻找一些可以确定的定义明确的特征(静态规则)。如果没有,那么我希望机器学习模型可能会有所帮助。
建议/想法?
如果您有兴趣采用朴素贝叶斯方法(毕竟还有其他机器学习选项),那么我建议您阅读以下文档,该文档遵循“数据挖掘:实用机器学习工具和技术”中对该主题的介绍,威滕和弗兰克:
http://www.coli.uni-sb.de/~crocker/Teaching/Connectionist/lecture10_4up.pdf