0

这甚至可能吗?

我遇到了导航问题,该导航也作为内容包含在文档中。所以这就是为什么我要删除所有链接标签,使其不在数据中。

我正在使用 1.7 版本。

4

1 回答 1

3

如果您只想告诉 nutch 不要遵循“a”标签,您可以简单地将“a”添加到“parser.html.outlinks.ignore_tags”设置中。

如果您想从解析的数据中删除“a”标签及其内容,由于当前 nutch 附带的 HtmlParser 没有任何与此相关的设置,我认为您应该编写一个 nutch 插件并开发一个 HtmlParseFilter 来执行您的逻辑。

于 2013-08-30T18:20:22.447 回答