regex - 从 HTML 中提取内容的 Jsoup、正则表达式和 XPath 的性能？

Question

但我想对 Web 应用程序进行性能测试。我很确定 HTML 的外观。所以我可以使用正则表达式从页面源中提取一些数据。

当我进行性能测试（使用 Jmeter）时，我想从主机上占用更少的资源。

哪个选项会占用更少的资源：XPath、正则表达式（Jakarta ORO）或 Jsoup？

score 3 · Accepted Answer

从 JMeter 2.8 开始，答案是 Regexp。但这当然取决于您使用的 Regexp 表达式。JMeter 中的正则表达式实现相当优化，是相关性的主要后处理方式。

关于 JSoup，例如需要基于 JSR223 后处理器的自定义编码。

JMeter 2.9 将引入一个新的基于 CSS/JQuery 选择器的提取器，具有 2 个可能的底层实现：

看：

在构建 DOM 文档时，它的性能将低于 Regexp，但它简化了不需要超优化测试计划的测试计划中的许多语法。

最后，关于 XPath，因为它构建了一个 DOM 树：

它的内存和 CPU 成本高于正则表达式，特别是如果您想提取许多元素，则创建了增强功能：

1 回答 1