Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个单文件蜘蛛,它只抓取一个站点。网站所有者可以看到哪些信息?
在这里,我没有使用自定义设置。(所以这是默认设置)。
例子:
1.蜘蛛名称
2.IP
3.操作系统
网站所有者可以看到此信息。
USER_AGENT
饼干。Scrapy 默认启用 cookie。转到设置并查找COOKIES_ENABLED删除评论,以便将其设置为 False。这将使抓取工作更加隐蔽。
COOKIES_ENABLED
并发请求。在设置中也是如此。这是您同时提出的请求数。最好降低数字,这样对网站更友好。