4

我正在尝试通过使用 org/apache/tika/sax/BodyContentHandler.java 中的代码为 tika 构建自定义 xpath contentHandler,以识别复杂的 xpath 表达式(因为我将 tika 用于其他东西)

这个 xpath 有效

/xhtml:html/xhtml:body/descendant:node()

但这并不

//xhtml:div[@id='someid']/descendant:node()

我想将 tika 的 contentHandler(因为它修复了 html 内容不平衡标签和无效字符)与来自 javax.xml.xpath 的 xpath 评估器集成。这样做的正确方法是什么。一旦 tika 评估并修复了 html 内容,有没有办法获得输入源?

4

1 回答 1

2

Tika 中包含的 XPath 功能仅支持 XPath 功能的子集(有关详细信息,请参阅XPathParser)。对于更复杂的 XPath 查询,我建议使用javax.xml.xpath 之类的东西。

于 2011-11-03T23:37:12.803 回答