1

nutch-site.xml,在plugin-includes标题下,当我写时parse-(type1|type2),它是什么意思?

这是否意味着对于 nutch 获取的每个 url,nutch 先使用type1 个解析器解析内容,然后依次调用type2解析器?

4

1 回答 1

1

你的假设是正确的。这就是它的工作原理。但请记住,可以为每个插件分配某种内容类型或一组内容类型。例如 parse-pdf 插件不会解析 msword 文档。

于 2012-09-25T08:53:55.367 回答