0

惊喜!我还有另一个 Apache Nutch v1.5 问题。因此,在通过 Nutch 将我们的网站抓取并索引到 Solr 时,我们需要能够排除任何属于特定路径的内容。

所以说我们有我们的网站:http://oursite.com/并且我们有一条我们不想索引的路径http://oursite.com/private/

http://oursite.com/seed.txt文件和文件+^http://www.oursite.com/([a-z0-9\-A-Z]*\/)*regex-urlfilter.txt

我认为将:-.*/private/.*也放入regex-urlfilter.txt文件中会排除该路径及其下的任何内容,但爬虫仍在该/private/路径下获取和索引内容。

我需要在服务器上进行某种重启,比如 Solr 吗?还是我的正则表达式实际上不是正确的方法?

谢谢

4

1 回答 1

1

我的猜测是 url 被第一个正则表达式接受,第二个不再检查。如果您想拒绝 URL,请将它们的正则表达式放在列表的首位。

于 2013-07-20T12:52:57.007 回答