我正在研究scrapy,我正在抓取一个网站并xpath
用来抓取物品。但是其中一些div
包含javascript
,所以当我使用 xpath 直到div id
包含 javascript 代码返回一个空列表,并且不包括该 div 元素(包含 javascript)可以获取 HTML 数据
HTML 代码
<div class="subContent2">
<div id="contentDetails">
<div class="eventDetails">
<h2>
<a href="javascript:;" onclick="jdevents.getEvent(117032)">Some data</a>
</h2>
</div>
</div>
</div>
蜘蛛代码
class ExampleSpider(BaseSpider):
name = "example"
domain_name = "www.example.com"
start_urls = ["http://www.example.com/jkl/index.php"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
required_data = hxs.select('//div[@class="subContent2"]/div[@id="contentDetails"]/div[@class="eventDetails"]')
那么我怎样才能text(Some data)
从上面提到的anchor tag
内部获取h2 element
,是否有任何替代方法可以从包含scrapy中的javascript的元素中获取数据