我正在尝试制作一个网络爬虫,它将使用我的凭据登录到 https 网站,然后爬取网站的某些部分。我在 python 中使用 Scrapty,但我不能 100% 确定它是否可能,因为在网站上我没有看到任何关于 https 的信息,只有以下内容:
*cookies and session handling
*HTTP compression
*HTTP authentication
*HTTP cache
如果,那么关于如何开始的任何想法?
我正在尝试制作一个网络爬虫,它将使用我的凭据登录到 https 网站,然后爬取网站的某些部分。我在 python 中使用 Scrapty,但我不能 100% 确定它是否可能,因为在网站上我没有看到任何关于 https 的信息,只有以下内容:
*cookies and session handling
*HTTP compression
*HTTP authentication
*HTTP cache
如果,那么关于如何开始的任何想法?
Scrapy默认支持 https,只要确保在你启动爬虫时在你的 URL 中使用正确的协议。
这是我的示例如何进行 HTTPS 或 HTTP 登录。首先,您需要从页面收集表单数据。通常它需要从页面中获取隐藏的输入。然后你需要使用 FormRequest 发送 formdata dict。