3

我需要解析大约 100 kB 的 HTML 数据,这只会在 Android 上造成巨大的性能问题。我已经尝试过内置的 XML 解析器和 JTidy。

内置的 XML 解析器给了我大约半秒的解析时间,我可以轻松地接受。问题是使用 XML 解析器来解析凌乱的 HTML 代码是一个坏主意,这不是一个选项。(我尝试了预处理,但它甚至开始抱怨有效的 HTML,所以......)

我用谷歌搜索了一下,建议使用 JTidy 在将代码传递给 XML 解析器之前对其进行清理。这绝对是一场噩梦,使用 JTidy 进行预处理解析现在大约需要7 秒

所以现在我唯一的选择就是正则表达式。你怎么看?

4

1 回答 1

0

这取决于您是否是 html 的所有者。

如果(据我了解)您不是 html 数据的所有者并且无法影响其格式,那么您可能会发现此信息很有用:Parse HTML in Android
But if html is really bad, the result can not beGuaranteed . 而且您更喜欢使用正则表达式。即使浏览器在使用“坏” html 时也会切换到怪癖模式,而不能保证查看的正确性。

于 2011-10-26T19:01:40.453 回答