7

我在几个网站上使用 Scrapy shell 都没有问题,但是当机器人(robots.txt)不允许访问某个站点时我发现问题。如何通过 Scrapy 禁用机器人检测(忽略存在)?先感谢您。 我说的不是 Scrapy 创建的项目,而是 Scrapy shell 命令:scrapy shell 'www.example.com'

4

2 回答 2

10

在你的 scrapy 项目的 settings.py 文件中,查找ROBOTSTXT_OBEY并将其设置为False

于 2016-11-26T22:02:30.690 回答
9

如果您从项目目录运行 scrapyscrapy shell将使用项目settings.py。如果你在项目之外运行,scrapy 将使用默认设置。但是,您可以通过--set标志覆盖和添加设置。
因此,要关闭ROBOTSTXT_OBEY设置,您可以简单地:

scrapy shell http://stackoverflow.com --set="ROBOTSTXT_OBEY=False"
于 2016-11-26T23:28:12.200 回答