java - HtmlCleaner XPath：获取没有子节点的节点内容

翻译自：https://stackoverflow.com/questions/40439550 2016-11-05T14:48:20.073

168 次

我正在使用 HtmlCleaner 库来解析 html 文件并通过其 XPath 函数提取一些数据。这工作得很好，但我找不到一种方法来获取节点的文本内容（没有子节点的内容）。正如许多基本的 XPath 文档中所述， text() 应该给出一个节点的内容而不包含其子节点的内容，但 htmlcleaner 集成似乎没有遵循这一点。有没有办法用 htmlcleaners XPath 做到这一点？

UPADTE：这是一个例子：

我的 html 是这个页面，http://www.imdb.com/title/tt0499549/? ref_= nv_sr_1 这里是 html 的片段：

<div class="txt-block">
  <h4 class="inline">Budget:</h4>        
    $237,000,000      
  <span class="attribute">(estimated)</span>
</div>

这是我的 XPath（在这种情况下 div[7] 采用 .txt-block div）

//*[@id='titleDetails']/div[7]/text()

这导致“预算：237,000,000 美元（估计）”，但我只想要“237,000,000 美元”而不是 h4 的内容而不是跨度。

java - HtmlCleaner XPath：获取没有子节点的节点内容

0 回答 0

Related

Reference