0

嘿,我有一个 html 页面,其中包含例如以下标签:

<p foruri="http://doc.scrapy.org/getting-help:solving-specific-problems" rec="lang.en" id="solving-specific-problems">Hello world!!! From my authoring tool.</p>

<p foruri="http://doc.scrapy.org/getting-help:getting help" rec="lang.en" id="getting help">Hello world!!! From my authoring tool.</p>

现在我使用 python 中的 scrapy 框架编写了一个爬虫,在其中我使用 cxxpath 查询来查找 foruri 标签,因为//@foruri它应该给我foruri标签存在的地方,但问题是它不会产生 http:

所以帮我搞定?

4

1 回答 1

0

假设您希望提取所有 <p> 标签的foruri属性:

hxs.select('//p/@foruri').extract()
于 2011-03-30T16:39:37.537 回答