Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
这甚至可能吗?
我遇到了导航问题,该导航也作为内容包含在文档中。所以这就是为什么我要删除所有链接标签,使其不在数据中。
我正在使用 1.7 版本。
如果您只想告诉 nutch 不要遵循“a”标签,您可以简单地将“a”添加到“parser.html.outlinks.ignore_tags”设置中。
如果您想从解析的数据中删除“a”标签及其内容,由于当前 nutch 附带的 HtmlParser 没有任何与此相关的设置,我认为您应该编写一个 nutch 插件并开发一个 HtmlParseFilter 来执行您的逻辑。