我希望爬虫能够识别例如新闻网站上的哪些页面是实际内容(即文章),而不是关于、联系人、类别列表等。
到目前为止,我还没有找到优雅的方法,因为内容的标准似乎因站点而异(没有通用的标签/布局/协议等)。任何人都可以将我引导到可以在一定程度上确定网站是否是一段内容的库或方法吗?在我爬取候选页面之后进行这种区分是完全可以接受的。
除非已经存在任何东西,否则我也很欣赏该领域现有/正在进行的研究的任何起点。
我希望爬虫能够识别例如新闻网站上的哪些页面是实际内容(即文章),而不是关于、联系人、类别列表等。
到目前为止,我还没有找到优雅的方法,因为内容的标准似乎因站点而异(没有通用的标签/布局/协议等)。任何人都可以将我引导到可以在一定程度上确定网站是否是一段内容的库或方法吗?在我爬取候选页面之后进行这种区分是完全可以接受的。
除非已经存在任何东西,否则我也很欣赏该领域现有/正在进行的研究的任何起点。
您可以从检查Boilerpipe 框架开始。他们的项目页面上有在线提取演示。如果提取结果对您的情况不是很好,您需要扩展他们的算法。