java - htmlcleaner 只抓取第一个 body 标签和子节点

翻译自：https://stackoverflow.com/questions/10924722 2012-06-07T02:01:59.630

261 次

1

我正在使用 java htmlcleaner，我希望只抓取第一个 body 标记及其所有子标记。我想省略 html、head、doctype 标签。

我见过nodeByXpath，但它似乎只适用于ant而不适用于java。有谁知道如何在java中做到这一点？

1 回答 1

0

当使用nodeByXPath命令行 arg 运行时，HtmlCleaner 评估整个文档，然后调用evaluateXPath(...)它。
所以不会有任何性能提升，您可以手动完成。

于 2013-05-23T10:43:27.227 回答