0

我正在尝试制作一个网络爬虫,它将使用我的凭据登录到 https 网站,然后爬取网站的某些部分。我在 python 中使用 Scrapty,但我不能 100% 确定它是否可能,因为在网站上我没有看到任何关于 https 的信息,只有以下内容:

*cookies and session handling
*HTTP compression
*HTTP authentication 
*HTTP cache

如果,那么关于如何开始的任何想法?

4

2 回答 2

0

Scrapy默认支持 https,只要确保在你启动爬虫时在你的 URL 中使用正确的协议。

于 2013-06-25T21:46:37.597 回答
0

这是我的示例如何进行 HTTPS 或 HTTP 登录。首先,您需要从页面收集表单数据。通常它需要从页面中获取隐藏的输入。然后你需要使用 FormRequest 发送 formdata dict。

于 2018-06-01T16:25:02.487 回答