我使用Jericho HTML Parser 3.1。
我需要从 html 中提取文本,处理它,根据这个,我需要将标签插入到原始 html 中。
但为此,我需要在提取的文本和源 html 之间进行匹配。
net.htmlparser.jericho.TextExtractor
提取文本非常好,但我无法找到如何在原始文件中找到位置。
Jericho-html 可以这样做吗?
我使用Jericho HTML Parser 3.1。
我需要从 html 中提取文本,处理它,根据这个,我需要将标签插入到原始 html 中。
但为此,我需要在提取的文本和源 html 之间进行匹配。
net.htmlparser.jericho.TextExtractor
提取文本非常好,但我无法找到如何在原始文件中找到位置。
Jericho-html 可以这样做吗?
您不能按原样使用 TextExtractor 执行此操作,但我过去需要做类似的事情,最简单的解决方案是复制 Jericho 的TextExtractor实现并对其进行编辑以添加您自己的自定义行为。这是一个非常简单的类,所以你可以很容易地看到在哪里添加你自己的钩子。