Incapsula 是一个 Web 应用程序交付平台,可用于防止抓取。
我在 Python 和 Scrapy 中工作,我发现了这个,但它似乎已经过时并且不能与当前的 Incapsula 一起使用。我用我的目标网站测试了 Scrapy 中间件,由于中间件无法提取一些混淆参数,我得到了 IndexErrors。
是否有可能调整这个 repo 或者 Incapsula 现在改变了它的操作模式?
我也很好奇如何将请求从 chrome 开发工具“复制为 cURL”到我的目标页面,并且 chrome 响应包含用户内容,但 curl 响应是一个“封装事件”页面。这适用于最初清除 cookie 的 chrome .....
curl 'https://www.radarcupon.es/tienda/fotoprix.com'
-H 'pragma: no-cache' -H 'dnt: 1' -H 'accept-encoding: gzip, deflate, br'
-H 'accept-language: en-GB,en-US;q=0.9,en;q=0.8'
-H 'upgrade-insecure-requests: 1'
-H 'user-agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/62.0.3202.94 Chrome/62.0.3202.94 Safari/537.36'
-H 'accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8'
-H 'cache-control: no-cache' -H 'authority: www.radarcupon.es'
--compressed
我期待双方的第一个请求返回类似 javascript 挑战的东西,它会设置一个 cookie,但它现在似乎不太像那样工作?