java - 在 Nutch 1.5 中使用 HtmlParseFilter 和 Tika 解析器

Question

我想做的是：编写一个 Nutch 插件，从每个抓取的页面接收解析的数据。我知道这HtmlParseFilter可以满足我对 HTML 页面的需求，但我也想处理其他类型的内容。当 Tika 解析 PDF 或 Word 文档时，它会将结果传递给我的注册文件HtmlParseFilter吗？如果没有，还有其他方法可以拦截 Tika 的输出吗？

score 3 · Accepted Answer

HtmlParseFilter 确实处理所有内容类型（Tika 可以）。它已在 2.x 分支中重命名为 ParseFilter 以更准确地反映它的作用。

java - 在 Nutch 1.5 中使用 HtmlParseFilter 和 Tika 解析器

1 回答 1

Related

Reference