xpath - 如何处理不一致的标记？

Question

我有一个项目，我必须从许多页面中抓取许多 URL。我认为每个页面的结构都将保持不变，但有时它会改变并破坏我的代码。

例如，我需要提取一篇文章的摘要及其关键字，它们都在一个单独<p>的同一个类"marginB3"中。所以我刮了一个页面，只得到了两个结果，一个是摘要，另一个是关键字：

hxs = HtmlXPathSelector(response)
lista =  hxs.select('//p[@class="marginB3"]/text()')  
self.abstracto = lista[0].extract()
self.keywords = lista[1].extract()

然后我尝试了第三页，并<p>出现了一个新的页面，其中包含有关该文章的一些附加信息并更改了结构。这使它变得更加复杂，因为没有 id 而只有类。<p>如果它们上面有自己的关键字，我如何区分哪个是没有 id 的关键字<h2>：

<h2>Info</h2>
<p class="marginB3">a_url_I_want</p>

我可以通过阅读<h2>然后阅读<p>下面的内容来进行区分吗？

score 0 · Accepted Answer

我不是 XPATH 专家，但我认为您需要查看following轴以捕获<h2>标记后的项目。

通常，当您尝试解析的文档没有很好地标记时，XPATH 的效果很差。冒着增加更多复杂性的风险，您可以查看诸如BeautifulSoup模块之类的东西，它允许以更程序化的方式处理不一致的标记。XPATH 是（大部分）声明性语言，而声明性语言很难应对非常规输入。

score 0 · Accepted Answer

你当然可以。

试试这个：

# First <p>
hxs.select('//h2/following-sibling::p[@class="marginB3"][1]/text()').extract()
# Second <p>
hxs.select('//h2/following-sibling::p[@class="marginB3"][2]/text()').extract()

xpath - 如何处理不一致的标记？

2 回答 2

Related

Reference