python - Scrapy - 使用 scrapy 可以登录 https 网站

Question

我正在尝试制作一个网络爬虫，它将使用我的凭据登录到 https 网站，然后爬取网站的某些部分。我在 python 中使用 Scrapty，但我不能 100% 确定它是否可能，因为在网站上我没有看到任何关于 https 的信息，只有以下内容：

*cookies and session handling
*HTTP compression
*HTTP authentication 
*HTTP cache

如果，那么关于如何开始的任何想法？

score 0 · Accepted Answer

Scrapy默认支持 https，只要确保在你启动爬虫时在你的 URL 中使用正确的协议。

score 0 · Accepted Answer

这是我的示例如何进行 HTTPS 或 HTTP 登录。首先，您需要从页面收集表单数据。通常它需要从页面中获取隐藏的输入。然后你需要使用 FormRequest 发送 formdata dict。

2 回答 2