我正在尝试制作一个scrapy-splash脚本来获取以下食物的链接:
https://www.realcanadiansuperstore.ca/Food/Meat-%26-Seafood/c/RCSS001004000000
当您第一次访问它时,它会让您选择一个地区。我想我已经通过在下面的代码中设置 cookies dict 正确地解决了这个问题。我正在尝试获取轮播中所有食品的链接。我正在使用 splash,因为轮播是由 javascript 制作的,并且使用漂亮的汤进行常规请求和解析不会在 html 中显示它。我的问题是我没有将任何数据放入我的“项目”字典中。
import scrapy
from scrapy_splash import SplashRequest
class QuotesSpider(scrapy.Spider):
name = 'quotes'
start_urls = ["https://www.realcanadiansuperstore.ca/Food/Meat-%26-
Seafood/c/RCSS001004000000"]
def start_requests(self):
for url in self.start_urls:
yield SplashRequest(url, cookies={'currentRegion' :'CA-BC'},
callback = self.parse, endpoint = 'render.html', args = {'wait':0.5},
)
def parse(self, response):
item = {}
item['urls'] = []
itemList = response.css('div.product-name-wrapper > a > ::attr(href)').extract()
for links in itemList:
item['urls'].append(links)
yield item
我认为我的 cookie 设置不正确,所以它会将我带到需要选择区域的页面。
顺便说一句,我也在 docker 控制台上运行了 splash。如果我在浏览器中访问我的本地主机,它会显示启动页面。
这是我从爬虫中得到的输出:
<GET https://www.realcanadiansuperstore.ca/Food/Meat-%26-
Seafood/c/RCSS001004000000 via http://localhost:8050/render.html>
(referer: None)
2017-07-04 16:44:05 [scrapy.core.scraper] DEBUG: Scraped from <200
https://www.realcanadiansuperstore.ca/Food/Meat-%26-
Seafood/c/RCSS001004000000>
{'urls': []}
这里可能出了什么问题?我已经按照此处所述填写了我的设置文件: https ://github.com/scrapy-plugins/scrapy-splash
好的,我已经能够通过像这样设置 cookie 来获取 Splash 的 localhost 浏览器实例来呈现我需要的 HTML:
function main(splash)
splash:add_cookie{"sessionid", "237465ghgfsd", "/",
domain="http://example.com"}
splash:go("http://example.com/")
return splash:html()
end
但这是在浏览器中作为脚本可以输入的。如何将此应用于我的 python 脚本?在 Python 中添加 cookie 有不同的方法吗?