2

我正在使用 Yahoo Pipes 从网页中提取内容。出于某种原因,开发人员将文章内容放在<h2>标签中,我很难从那里获取内容。

内容如下所示:

<div id="divid"><h2>
<p>Some content<p>
<p>Some more content</p>
</h2>
<!-- some more stuff here -->
</div>

当我使用时,//div[@id='divid']我可以获取整个<div>块的内容,但是当我尝试时//div[@id='divid']//h2//div[@id='divid']//h2/text()我什么也得不到。

我做错了什么,如何<h2>正确获取标签之间的内容?

您可能想检查实际的网页

4

1 回答 1

1

也许您缺少的是勾选使用 HTML5 解析器选项。没有它就无法匹配//h2

该页面是一项相当出色的工作。文本中充满<span...>了内联样式的标签。我创建了一个示例管道以使页面变得有意义:

http://pipes.yahoo.com/pipes/pipe.info?_id=cf46006f77bdac4a6e57785c78cd0b2b

于 2013-09-13T14:04:13.950 回答