我正在构建一个搜索引擎(为了好玩),这让我感到震惊,我的小项目可能会因点击广告和各种问题而造成严重破坏。
那么好的网络爬虫“礼仪”的指导方针是什么?
想到的事情:
- 遵守 Robot.txt 说明
- 限制对同一域的同时请求数
- 不关注广告链接?
阻止爬虫点击广告 - 目前我特别想到这个......我如何阻止我的机器人“点击”广告?如果它直接进入广告中的网址,是否算作点击?
我正在构建一个搜索引擎(为了好玩),这让我感到震惊,我的小项目可能会因点击广告和各种问题而造成严重破坏。
那么好的网络爬虫“礼仪”的指导方针是什么?
想到的事情:
阻止爬虫点击广告 - 目前我特别想到这个......我如何阻止我的机器人“点击”广告?如果它直接进入广告中的网址,是否算作点击?
您不只阅读 robots.txt 指令。您还应该看到带有 noindex 和 nofollow 的元标记。
关于广告问题,我不确定,但我想如果你只是阅读链接然后再进入页面,输入的页面将没有关于你如何获得该地址的信息,并且无法向网站收费对于“伪点击”
不要关注标记为 rel="nofollow" 的链接。
此外,您不必担心广告。如果您只抓取页面的 HTML 文本,那么在大多数情况下,您不会在那里获得广告链接 - 它们是在客户端使用 javascript 生成的。