1

寻找 TagSoup 和 JSoup 对真实世界文档的性能比较。到目前为止,我一直在使用 TagSoup 进行 HTML 处理,并且效果很好。唯一的缺点是,由于 SAX 的性质,很多事情应该使用堆栈以编程方式完成(例如,用于处理带有标签的文本)。JSoup 看起来更简洁——但我关心的是性能。

4

1 回答 1

1

TagSoup 网站指出:

还有许多其他用 Java 编写的 HTML SAX 解析器,特别是 NekoHTML、JTidy(C 库和工具 HTML Tidy 的一个端口)和 HTML Parser。都有其优点和缺点:Web 上的普遍看法似乎是 TagSoup 是最慢的,但也是最强大和最可靠的。

我尝试创建一个应用程序,该应用程序将使用 jsoup 解析 5 个页面,使用 TagSoup 解析 5 个页面并发布时间。不幸的是,我不知道如何使用 TagSoup 1.2.1 将网页返回到 DOM,这使得苹果与苹果之间的比较变得困难。

于 2013-09-13T20:28:45.500 回答