html - 如何在scrapy中为HTML文件编写XPath？

Question

我想从具有 HTML 结构的 angel.co 网页中提取内容

 <meta content="Panjo, Marketplace for enthusiasts, Santa Monica, E-Commerce, Payments, Social Commerce, Forums, jobs, recruiting, hiring" name="description">

所以对于上述结构，我使用的是 Xpath

    hxs.('//meta/@content').extract()

它打印与“内容”标签相关的所有文本，但我希望这应该只打印与“描述”相关的内容。

score 3 · Accepted Answer

您可以使用谓词仅选择属性为的meta标记：name'description'

hxs.select('//meta[@name=\'description\']/@content').extract();

这是 XPath 语法的教程：http: //www.w3schools.com/xpath/xpath_syntax.asp

html - 如何在scrapy中为HTML文件编写XPath？

1 回答 1

Related

Reference