0

我正在使用 nutch 1.4。我想在索引它之前操纵抓取的 url。

例如,如果我的 URL 是http://xyz.com/home/xyz.aspx那么我想将 URL 修改为http://xyz.com/index.aspx?role=xyz并且只有后一个字段应该是在 SOLR 中索引。原因是我不想公开第一个 URL。第二个 URL 最终会将其重定向到同一页面。

我们是否在 Nutch 中有一项规定,可以在将抓取的 URL 编入 SOLR 之前对其进行操作?

4

1 回答 1

0

除非您编写自定义插件,否则没有开箱即用的方法来修改提供给 solr 的值。
但是,在将结果显示给用户之前,这可以在客户端轻松处理。

于 2013-06-28T10:13:24.007 回答