我需要解析大约 100 kB 的 HTML 数据,这只会在 Android 上造成巨大的性能问题。我已经尝试过内置的 XML 解析器和 JTidy。
内置的 XML 解析器给了我大约半秒的解析时间,我可以轻松地接受。问题是使用 XML 解析器来解析凌乱的 HTML 代码是一个坏主意,这不是一个选项。(我尝试了预处理,但它甚至开始抱怨有效的 HTML,所以......)
我用谷歌搜索了一下,建议使用 JTidy 在将代码传递给 XML 解析器之前对其进行清理。这绝对是一场噩梦,使用 JTidy 进行预处理解析现在大约需要7 秒。
所以现在我唯一的选择就是正则表达式。你怎么看?