我正在使用 nutch 1.4。我想在索引它之前操纵抓取的 url。
例如,如果我的 URL 是http://xyz.com/home/xyz.aspx那么我想将 URL 修改为http://xyz.com/index.aspx?role=xyz并且只有后一个字段应该是在 SOLR 中索引。原因是我不想公开第一个 URL。第二个 URL 最终会将其重定向到同一页面。
我们是否在 Nutch 中有一项规定,可以在将抓取的 URL 编入 SOLR 之前对其进行操作?
我正在使用 nutch 1.4。我想在索引它之前操纵抓取的 url。
例如,如果我的 URL 是http://xyz.com/home/xyz.aspx那么我想将 URL 修改为http://xyz.com/index.aspx?role=xyz并且只有后一个字段应该是在 SOLR 中索引。原因是我不想公开第一个 URL。第二个 URL 最终会将其重定向到同一页面。
我们是否在 Nutch 中有一项规定,可以在将抓取的 URL 编入 SOLR 之前对其进行操作?