2

我正在寻找一个基于 Java 的 html 解析器,它可以搜索和替换保留 html 标签的文本。这个问题以前在这里被问过,但答案似乎没有达到目标。我下载并编写了一些简单的程序来查看它们是否可以完成这项工作的 html 解析器很少。这些包括 jsoup、Jericho、Java HTML 解析器等。这些可以进行搜索,但是在替换保留 html 标记的文本时,没有办法做到这一点。

我已经阅读了这些帖子的完整主题:

如何在保留html标签/结构的同时查找/替换html中的文本

html在服务器端搜索和替换

如果今天不存在这样的解析器,那么实现它的最佳方法是什么?如果您已经做过类似的事情,您可以分享代码吗?

4

2 回答 2

1

Jericho 解析器可能会对您有所帮助。一直存在并使用格式错误的 HTML。 http://jericho.htmlparser.net/docs/index.html

于 2011-01-19T23:45:47.493 回答
1

Caja 解析器使用 libhtmlparser,这是一个 HTML5 解析器,可以很好地处理包含嵌入式 XML 子树的标签汤,生成一个org.w3c.dom.DocumentFragment.,并有一个渲染器,可以生成格式良好的 HTML。

解析器代码位于http://code.google.com/p/google-caja/source/browse/trunk/src/com/google/caja/parser/html/DomParser.java

渲染器代码位于http://code.google.com/p/google-caja/source/browse/trunk/src/com/google/caja/parser/html/Nodes.java

于 2011-01-20T02:11:46.450 回答