apache-tika - 使用 tika 自定义 xpath 表达式

Question

我正在尝试通过使用 org/apache/tika/sax/BodyContentHandler.java 中的代码为 tika 构建自定义 xpath contentHandler，以识别复杂的 xpath 表达式（因为我将 tika 用于其他东西）

这个 xpath 有效

/xhtml:html/xhtml:body/descendant:node()

但这并不

//xhtml:div[@id='someid']/descendant:node()

我想将 tika 的 contentHandler（因为它修复了 html 内容不平衡标签和无效字符）与来自 javax.xml.xpath 的 xpath 评估器集成。这样做的正确方法是什么。一旦 tika 评估并修复了 html 内容，有没有办法获得输入源？

score 2 · Accepted Answer

Tika 中包含的 XPath 功能仅支持 XPath 功能的子集（有关详细信息，请参阅XPathParser）。对于更复杂的 XPath 查询，我建议使用javax.xml.xpath 之类的东西。

1 回答 1