solr - 分离 Nutch 正则表达式文件以抓取和索引到多个 Solr 核心

Question

我的设置是：Ubuntu Server 12.04 LTS 上的 Nutch 1.6 和 Solr 4.3.0

我需要对大型网站的内容进行爬网和索引，并且希望使用单独的核心来执行此操作。

我已经配置了 Solr 并以这种方式启动它：

java -Dsolr.solr.home=multicore -jar start.jar

然后我配置并启动了 Nutch 两次，每个源 urls 文件夹和索引目标（core0，core1）：

bin/nutch crawl urlsNewsArticles -dir crawlNewsArticles -solr http://localhost:8983/solr/core1 -depth 10 -topN 100000

bin/nutch crawl urlsPictureGalleries -dir crawlPictureGalleries -solr http://localhost:8983/solr/core0 -depth 10 -topN 100000

结果很完美，但是为了过滤掉不需要的 URL 模式，我必须在 regex-urlfilter.txt 文件中指定一些正则表达式。由于两个爬网会话的正则表达式集不同，我必须在运行第二次爬网之前编辑 regex-urlfilter.txt 文件。

问题：有没有办法准备两个单独的 regex-urlfilter.txt 文件并在每个 /bin/nutch 命令行上指定正确的文件？

请考虑我开始实验配置时使用了 2 个 url 集和核心，但我必须配置至少 5 个，并且应该将它们配置为自动重新抓取，而无需在其间进行手动编辑会话......

score 2 · Accepted Answer

您可以尝试将多个正则表达式文件和主文件作为链接，然后在开始 nutch 索引之前重新指向它

solr - 分离 Nutch 正则表达式文件以抓取和索引到多个 Solr 核心

1 回答 1

Related

Reference