我正在寻找一个好的开源机器人来确定一些质量,这通常是谷歌索引所必需的。
例如
- 查找重复的标题
- 无效链接(jspider 会这样做,我认为会有更多人这样做)
- 完全相同的页面,但不同的网址
- 等,其中等等于谷歌质量要求。
我正在寻找一个好的开源机器人来确定一些质量,这通常是谷歌索引所必需的。
例如
您的要求非常具体,因此不太可能有一个开源产品可以完全满足您的需求。
然而,有许多用于构建网络爬虫的开源框架。您使用哪一种取决于您的语言偏好。
例如:
通常,这些框架会根据您提供的规则提供用于爬取和抓取网站页面的类,但是您可以通过挂钩自己的代码来提取所需的数据。
谷歌网站管理员工具是一个基于网络的服务(而不是一个按需机器人),它并没有做你所要求的一切——但它确实做了一些你没有要求的事情,并且 - 来自谷歌 - 它无疑与你奇怪的“等,其中等等于谷歌质量要求”相匹配。比其他任何地方都好。