java - 如何在 Nutch 2.1 solrindex 命令中过滤 URL

Question

bin/nutch solrindex当我运行命令时，如何防止我获取的某些页面被索引？我想定义和使用 regex-urlfilter.txt 就像我在获取时所做的那样。

我正在使用 Nutch 2.1，根据http://wiki.apache.org/nutch/bin/nutch%20solrindex，该选项刚刚消失。我检查了源代码，找不到任何关于此事的线索。

有什么解决方法吗？

score 2 · Accepted Answer

似乎应该使用索引过滤器插件。

我按照Hartl 的教程来组织和链接源代码。

这是代码中有趣的部分：

public NutchDocument filter(NutchDocument doc, String url, WebPage page)
    throws IndexingException {
    String input_url = url;
    try {
        url = urlNormalizers.normalize(url, URLNormalizers.SCOPE_DEFAULT);
        url = urlFilters.filter(url); // filter the url
    } catch (Exception e) {
        LOG.warn("Skipping " + input_url + ":" + e);
        return null;
    }  
    if (url == null) {
        LOG.info("Skipping (filter): " + input_url);
        return null;
    }  
    return doc;
}

public void setConf(Configuration conf) {
    this.conf = conf;
    this.urlFilters = new URLFilters(conf);
    urlNormalizers = new URLNormalizers(conf, URLNormalizers.SCOPE_INJECT);
}

score 0 · Accepted Answer

0

你的排除标准是什么？

您可以在获取/解析阶段排除它们吗？

于 2013-05-14T19:57:30.160 回答

java - 如何在 Nutch 2.1 solrindex 命令中过滤 URL

2 回答 2

Related

Reference