Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在尝试使用 Nutch 1.2 解析 HTML5 页面,并遇到索引中包含 HTML5 标记“标题”的问题。
我曾经使用“parser.html.divIDsToExclude”排除 HTML4 标头,但这将不再符合我的要求。
是否有类似的插件可以排除已配置的 HTML5 标签
谢谢!
我已经在 Nutch 1.6 中成功使用了这个插件。
Nutch 过滤器 xpath
我确实有相反的要求,我只想包含一个特定的 div。:)
使用此插件,您可以使用 XPath 查询配置要提取的 HTML 文档的哪些部分。