3

我正在构建一个搜索引擎(为了好玩),这让我感到震惊,我的小项目可能会因点击广告和各种问题而造成严重破坏。

那么好的网络爬虫“礼仪”的指导方针是什么?

想到的事情:

  1. 遵守 Robot.txt 说明
  2. 限制对同一域的同时请求数
  3. 不关注广告链接?

阻止爬虫点击广告 - 目前我特别想到这个......我如何阻止我的机器人“点击”广告?如果它直接进入广告中的网址,是否算作点击?

4

2 回答 2

3

您不只阅读 robots.txt 指令。您还应该看到带有 noindex 和 nofollow 的元标记

关于广告问题,我不确定,但我想如果你只是阅读链接然后再进入页面,输入的页面将没有关于你如何获得该地址的信息,并且无法向网站收费对于“伪点击”

于 2009-06-09T13:43:34.477 回答
2

不要关注标记为 rel="nofollow" 的链接。

此外,您不必担心广告。如果您只抓取页面的 HTML 文本,那么在大多数情况下,您不会在那里获得广告链接 - 它们是在客户端使用 javascript 生成的。

于 2009-06-09T13:41:53.217 回答