0

我的机器上有数百个旧的 html 文件,我正在尝试解析和提取一些数据。我尝试了不同的 Java 解析器,包括 Jsoup、Tagsoup、HTMLcleaner、JTidy 等。由于 html 代码在文件中的方式,我只能使用支持 XPATH 的解析器,尝试了 Jsoup,但找不到等效的 css 选择器。

无论如何,我的问题是无论我尝试什么解析器,都会清理实际内容并将 ' (撇号)之类的东西转换为奇怪的字符。

是否可以使用任何 Java 解析器解析内容而无需整理和替换特殊字符?

4

0 回答 0