0

我正在尝试使用 Nutch 1.2 解析 HTML5 页面,并遇到索引中包含 HTML5 标记“标题”的问题。

我曾经使用“parser.html.divIDsToExclude”排除 HTML4 标头,但这将不再符合我的要求。

是否有类似的插件可以排除已配置的 HTML5 标签

谢谢!

4

1 回答 1

0

我已经在 Nutch 1.6 中成功使用了这个插件。

Nutch 过滤器 xpath

我确实有相反的要求,我只想包含一个特定的 div。:)

使用此插件,您可以使用 XPath 查询配置要提取的 HTML 文档的哪些部分。

于 2013-05-14T20:38:03.437 回答