假设有一个html字符串...
<div class="content">
This is some test <b>this is bold </b> this is great list of text.
</div>
<div class="content">
<ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
</ul>
</div>
现在我想使用 Scrapy 将这两个元素的内容刮到一个变量中。
def parse(self, response):
hxs = HtmlXPathSelector(response)
# this returns all nested elements/nodes except text
contents = product.select('//div[@class="content"]/*').extract()
# this returns all nested text except elements/nodes
contents = product.select('//div[@class="content"]/text()').extract()
如何获取两个元素/节点的整个嵌套 HTML 作为变量中的字符串?