This question shows research effort; it is useful and clear
1
This question does not show any research effort; it is unclear or not useful
Bookmark this question.
Show activity on this post.
我想做的是:编写一个 Nutch 插件,从每个抓取的页面接收解析的数据。我知道这HtmlParseFilter可以满足我对 HTML 页面的需求,但我也想处理其他类型的内容。当 Tika 解析 PDF 或 Word 文档时,它会将结果传递给我的注册文件HtmlParseFilter吗?如果没有,还有其他方法可以拦截 Tika 的输出吗?