如何检索标签中包含的所有 HTML?
hxs = HtmlXPathSelector(response)
element = hxs.select('//span[@class="title"]/')
也许是这样的:
hxs.select('//span[@class="title"]/html()')
编辑:
如果我查看文档,我只会看到返回 new 的方法XPathSelectorList
,或者只是标签内的原始文本。我想检索的不是新列表或文本,而是标签内的源代码 HTML。例如:
<html>
<head>
<title></title>
</head>
<body>
<div id="leexample">
justtext
<p class="ihatelookingforfeatures">
sometext
</p>
<p class="yahc">
sometext
</p>
</div>
<div id="lenot">
blabla
</div>
an awfuly long example for this.
</body>
</html>
我想做一个这样的方法,hxs.select('//div[@id="leexample"]/html()')
它将返回其中的 HTML,如下所示:
justtext
<p class="ihatelookingforfeatures">
sometext
</p>
<p class="yahc">
sometext
</p>
我希望我清除了围绕我的问题的模棱两可。
如何从HtmlXPathSelector
Scrapy 中获取 HTML?(也许是scrapy范围之外的解决方案?)