34

我有一个严肃的问题。忽略网站上存在 robots.txt 文件是否合乎道德?这些是我想到的一些考虑因素:

  1. 如果有人建立一个网站,他们会期待一些访问。诚然,网络爬虫在不点击可能支持该网站的广告的情况下使用带宽,但网站所有者将他们的网站放在网络上,对,那么他们期望他们永远不会被机器人访问有多合理?

  2. 一些网站显然使用 robots.txt 是为了防止他们的网站被 Google 或其他可能获取价格的实用程序抓取,从而让人们轻松进行价格比较。他们在网站上有私人搜索引擎,因此他们显然希望人们能够搜索该网站;显然他们只是不希望人们能够轻松地将他们的信息与其他供应商进行比较。

正如我所说,我不想争论。我想知道是否有人提出过在道德上允许忽略 robots.txt 文件的案例?我想不出允许忽略 robots.txt 的情况,主要是因为人们(或企业)花钱建立他们的网站,所以他们应该能够告诉世界上的谷歌/雅虎/其他 SE 他们不想在他们的索引上。

为了把这个讨论放在上下文中,我想创建一个价格比较网站,其中一个主要供应商有一个 robots.txt,它基本上可以防止任何人抢他们的价格。我希望能够获得他们的信息,但正如我所说,我不能证明只是无视网站所有者的意愿。

我在这里看到了一些非常尖锐的讨论,这就是为什么我想听听关注 Stack Overflow 的开发人员的意见。

顺便说一句,在Hacker News question上有一些关于这个话题的讨论,但他们似乎主要集中在这个问题的法律方面。

4

10 回答 10

49

论据:

  1. robots.txt 文件是一种默示许可,尤其是在您知道它的情况下。因此,继续抓取他们的网站可能被视为未经授权的访问(即黑客攻击)。糟透了,但是最近在其他法律案件中也提出了这样的论点(与 robots.txt 没有直接关系,但与其他“被动控制”有关。)
  2. 抢价格不违反版权法,包括 DMCA,因为版权不包括事实信息,只包括创意。
  3. 从道德上讲,您不应该抢价格,因为供应商应该有能力更改价格,而不必担心被来自您网站的人指责为诱饵/转换。
  4. 您是否走上正轨,向他们解释该网站并说您希望将它们包括在您的供应商列表中?也许他们会喜欢这个想法,并以一种您易于使用且资源密集度较低的方式来实际公开数据。
  5. 没有直接写关于 robots.txt 的法律,因为一般都遵循网络礼节。不要成为“坏人”之一。
  6. 有些人过滤机器人是因为他们使用 URL 链接来执行“操作”,比如将东西添加到购物车中,而机器人会在他们的数据库中留下大量废弃的购物车。
  7. 有些人过滤机器人是因为他们有独家价格,他们不能根据与供应商的协议公开宣传。通过在您的网站上公开这些价格,您可能会将它们置于不利位置。
  8. 在这种经济环境下,如果一家公司不想尽一切可能为自己做广告,那么你不包括他们就是他们自己的错。
于 2009-06-16T00:12:36.053 回答
29

另一个用途robots.txt是帮助保护网络蜘蛛免受自身侵害。网络蜘蛛相对容易陷入无限深的链接森林中,并且正确构建的robots.txt文件会告诉蜘蛛“你不需要去这里”。

于 2009-06-16T00:07:36.440 回答
5

许多人试图通过建立刮掉主要网站的“价格比较”引擎来建立业务。

一旦您开始获得任何类型的流量/收入,您收到停止和终止。它发生在几十个,如果不是几百个项目上。我什至参与了一个从 Craigslist 获得 C&D 的小项目。

你知道他们怎么说“请求宽恕比获得许可更容易”吗?它不适用于页面抓取。获得许可,否则您将听取他们的律师的意见。

如果你幸运的话,它会在早期,当你没有什么可失去的时候。如果为时已晚,您可能会在一封信中一夜之间失去您的业务和所有工作。

获得许可应该不难。除非您在偷偷摸摸地做某事,否则您可能会为他们带来额外的流量。地狱,一旦你的产品起飞,网站可能会乞求你,甚至付钱给你添加他们的数据。

于 2009-10-30T01:16:13.283 回答
2

我们允许机器人毫无怨言地浏览网络的一个原因是,如果我们愿意,我们有办法阻止它们。保护双方。

还记得当 Cuil 的机器人被指控过度使用时引起的轩然大波,在某些情况下显然表现得像 DoS 攻击并耗尽了一些小型站点的带宽配额?

如果太多人违反 robots.txt,我们可能会遇到更糟的情况。

于 2009-06-16T01:41:18.320 回答
1

“不就是不”。

于 2009-06-16T00:04:29.927 回答
1

要回答狭窄的问题,对于价格比较网站,您最好实时获取价格,而不是提前报废数据库。很难想象这是一个问题。

于 2009-06-16T01:32:14.490 回答
0

一个有趣的 IRL 版本的故事,涉及哈佛合作社: 合作社在 ISBN 复印机上报警

于 2009-06-16T01:27:17.263 回答
0

简短的回答:没有。

在狭隘的问题上:如果卖家说他们的价格是秘密的,我认为你必须尊重这一点。我会联系他们并询问他们是否真的不希望像您这样的价格比较引擎包含它们,或者“禁止侵入”标志是否出于技术原因。如果是后者,也许他们会为您提供替代方案。如果是前者,那我会说太糟糕了,他们没有被包括在内,他们失去了一些业务,这是他们的问题。

切线咆哮:就我个人而言,我对那些让我跳过箍来了解他们产品的价格的公司感到非常恼火,这些公司让我打电话给推销员并与之交谈,以便他可以给我一个硬推销,或者更糟,让我给他们我的电话号码,这样他们的推销员就可以打电话骚扰我。我想如果他们不敢告诉我价格,那可能意味着它太高了。

一般来说:robots.txt 文件就像一个“禁止侵入”标志。业主有权决定谁可以进入他们的财产。如果您认为他们的理由很愚蠢,您可以礼貌地建议他们撤下标志。但你无权无视他们的意愿。如果有人在他的院子里贴了禁止侵入的标志,我说,“嘿,我只想走捷径,有什么大不了的?” ——也许我踩到了他珍贵的保加利亚紫罗兰球茎,毁掉了一笔宝贵的投资。也许我正在穿越他的人民的神圣墓地,冒犯他们的宗教感情。或者,也许他只是一个脾气暴躁的混蛋。但这仍然是他的财产和权利。哦,如果我在无视“禁止擅闯”标志后掉进了危险的天坑,那该怪谁?(在美国,

于 2009-08-03T17:28:31.040 回答
-2

我在这里表现出一些无知,但我一直认为机器人只是由搜索引擎发出的东西。像谷歌或雅虎。

因此,如果您编写了一个在 Internet 上搜索内容的应用程序,我不会认为这是一个搜索引擎机器人,据我所知,这就是 robots.txt 试图阻止的内容。

但这可能只是选择性的无知,因为我可能会这样做,直到该网站的网站管理员联系我并要求我停止:)

于 2009-06-16T02:22:35.647 回答
-4

如果人们将其提供给公众访问,他们不应该尝试对其进行限制。向您的网站添加 robots.txt 文件相当于在您的草坪上放置一个标语,上面写着“请不要看我”。

于 2009-06-16T00:08:38.153 回答