1

我使用Jericho HTML Parser 3.1。

我需要从 html 中提取文本,处理它,根据这个,我需要将标签插入到原始 html 中。

但为此,我需要在提取的文本和源 html 之间进行匹配。

net.htmlparser.jericho.TextExtractor提取文本非常好,但我无法找到如何在原始文件中找到位置。

Jericho-html 可以这样做吗?

4

1 回答 1

2

您不能按原样使用 TextExtractor 执行此操作,但我过去需要做类似的事情,最简单的解决方案是复制 Jericho 的TextExtractor实现并对其进行编辑以添加您自己的自定义行为。这是一个非常简单的类,所以你可以很容易地看到在哪里添加你自己的钩子。

于 2011-04-07T10:30:57.530 回答