2

我正在使用 HtmlCleaner 库来解析 html 文件并通过其 XPath 函数提取一些数据。这工作得很好,但我找不到一种方法来获取节点的文本内容(没有子节点的内容)。正如许多基本的 XPath 文档中所述, text() 应该给出一个节点的内容而不包含其子节点的内容,但 htmlcleaner 集成似乎没有遵循这一点。有没有办法用 htmlcleaners XPath 做到这一点?

UPADTE:这是一个例子:

我的 html 是这个页面,http://www.imdb.com/title/tt0499549/? ref_= nv_sr_1 这里是 html 的片段:

<div class="txt-block">
  <h4 class="inline">Budget:</h4>        
    $237,000,000      
  <span class="attribute">(estimated)</span>
</div>

这是我的 XPath(在这种情况下 div[7] 采用 .txt-block div)

//*[@id='titleDetails']/div[7]/text()

这导致“预算:237,000,000 美元(估计)”,但我只想要“237,000,000 美元”而不是 h4 的内容而不是跨度。

4

0 回答 0