1

我想做的是:编写一个 Nutch 插件,从每个抓取的页面接收解析的数据。我知道这HtmlParseFilter可以满足我对 HTML 页面的需求,但我也想处理其他类型的内容。当 Tika 解析 PDF 或 Word 文档时,它会将结果传递给我的注册文件HtmlParseFilter吗?如果没有,还有其他方法可以拦截 Tika 的输出吗?

4

1 回答 1

3

HtmlParseFilter 确实处理所有内容类型(Tika 可以)。它已在 2.x 分支中重命名为 ParseFilter 以更准确地反映它的作用。

于 2012-11-28T06:56:24.400 回答