1

我想从具有 HTML 结构的 angel.co 网页中提取内容

 <meta content="Panjo, Marketplace for enthusiasts, Santa Monica, E-Commerce, Payments, Social Commerce, Forums, jobs, recruiting, hiring" name="description">

所以对于上述结构,我使用的是 Xpath

    hxs.('//meta/@content').extract()

它打印与“内容”标签相关的所有文本,但我希望这应该只打印与“描述”相关的内容。

4

1 回答 1

3

您可以使用谓词仅选择属性为的meta标记:name'description'

hxs.select('//meta[@name=\'description\']/@content').extract();

这是 XPath 语法的教程:http: //www.w3schools.com/xpath/xpath_syntax.asp

于 2013-08-01T18:20:20.747 回答