我正在尝试使用 jTidy 从(现实世界)HTML 中提取数据。但 jTidy 不解析自定义标签。
<html>
<body>
<myCustomTag>some text</myCustomTag>
<anotherCustom>more text</anotherCustom>
</body>
</html>
我无法在自定义标签之间获取文本。我必须使用 jTidy,因为我将使用 xpath。
我尝试了 HTMLCleaner,但它不支持完整的 xpath 功能。