我正在尝试通过使用 org/apache/tika/sax/BodyContentHandler.java 中的代码为 tika 构建自定义 xpath contentHandler,以识别复杂的 xpath 表达式(因为我将 tika 用于其他东西)
这个 xpath 有效
/xhtml:html/xhtml:body/descendant:node()
但这并不
//xhtml:div[@id='someid']/descendant:node()
我想将 tika 的 contentHandler(因为它修复了 html 内容不平衡标签和无效字符)与来自 javax.xml.xpath 的 xpath 评估器集成。这样做的正确方法是什么。一旦 tika 评估并修复了 html 内容,有没有办法获得输入源?