我正在开发一个需要解析 HTML 文档的产品。我寻找 Jericho、TagSoup、Jsoup 和 Crawl4J。我应该使用哪个解析器来解析 HTML,因为我需要使用石英在多线程环境中运行此进程?
如果一次有 10 个线程在内存中运行,那么我需要一个消耗更少内存的 API。在杰里科,我在某处读到它是基于文本的搜索 API,并且消耗的内存更少。我对吗?或者我应该去其他的,为什么?
我正在开发一个需要解析 HTML 文档的产品。我寻找 Jericho、TagSoup、Jsoup 和 Crawl4J。我应该使用哪个解析器来解析 HTML,因为我需要使用石英在多线程环境中运行此进程?
如果一次有 10 个线程在内存中运行,那么我需要一个消耗更少内存的 API。在杰里科,我在某处读到它是基于文本的搜索 API,并且消耗的内存更少。我对吗?或者我应该去其他的,为什么?
测试它们并检查它们的内存占用。如果不了解和测试您要解析的 HTML,就很难对内存配置文件进行预测。
FFIW,我在许多不同的系统中使用过 Jsoup,我发现它工作得非常好。我也从未注意到它有任何猖獗的记忆问题。
我正在使用 JSoup,给我留下了深刻的印象。它的解析速度非常快,而且它的 CSS 样式模式匹配内容比 XPath 更容易维护。
我首先尝试了Validator.nu 的解析器,发现它非常缺乏。文档非常薄,我无法让它正确执行在 Chrome 中运行良好的 XPath。
另外,看看这个问题:哪个 HTML Parser 是最好的?