1

我想根据您的投票从此页面@title的主要注释部分中提取: https ://www.fragrantica.com/perfume/Remy-Latour/Cigar-9351.html

我已经获取了 HTML,然后尝试了这行代码,scrapy shell但输出是None

response.xpath('//*[@id="userMainNotes"]/div/img/@title).extract_first()

我究竟做错了什么?

4

2 回答 2

2

如果您检查源代码 ( Ctrl+U),您会发现:

<div title="96:241;171:117;33:103;34:103;41:70;128:63;4:59;182:59;170:58;75:56;191:48;21:39;77:39;14:28" id="userMainNotes">Loading...</div>

这意味着上面<div>是由 Javascript 呈现的,这就是您的代码不起作用的原因。

于 2018-09-09T10:03:15.873 回答
0

这将起作用

response.xpath('//span[contains(@id, "note")]/img[@rel]/@title')

不要忘记将 USER AGENT 设置为您的 settings.py

爬虫数据表单网站使用 Scrapy 1.5.0 - Python

于 2018-09-09T14:01:16.170 回答