我有一个严肃的问题。忽略网站上存在 robots.txt 文件是否合乎道德?这些是我想到的一些考虑因素:
如果有人建立一个网站,他们会期待一些访问。诚然,网络爬虫在不点击可能支持该网站的广告的情况下使用带宽,但网站所有者将他们的网站放在网络上,对,那么他们期望他们永远不会被机器人访问有多合理?
一些网站显然使用 robots.txt 是为了防止他们的网站被 Google 或其他可能获取价格的实用程序抓取,从而让人们轻松进行价格比较。他们在网站上有私人搜索引擎,因此他们显然希望人们能够搜索该网站;显然他们只是不希望人们能够轻松地将他们的信息与其他供应商进行比较。
正如我所说,我不想争论。我想知道是否有人提出过在道德上允许忽略 robots.txt 文件的案例?我想不出允许忽略 robots.txt 的情况,主要是因为人们(或企业)花钱建立他们的网站,所以他们应该能够告诉世界上的谷歌/雅虎/其他 SE 他们不想在他们的索引上。
为了把这个讨论放在上下文中,我想创建一个价格比较网站,其中一个主要供应商有一个 robots.txt,它基本上可以防止任何人抢他们的价格。我希望能够获得他们的信息,但正如我所说,我不能证明只是无视网站所有者的意愿。
我在这里看到了一些非常尖锐的讨论,这就是为什么我想听听关注 Stack Overflow 的开发人员的意见。
顺便说一句,在Hacker News question上有一些关于这个话题的讨论,但他们似乎主要集中在这个问题的法律方面。