惊喜!我还有另一个 Apache Nutch v1.5 问题。因此,在通过 Nutch 将我们的网站抓取并索引到 Solr 时,我们需要能够排除任何属于特定路径的内容。
所以说我们有我们的网站:http://oursite.com/
并且我们有一条我们不想索引的路径http://oursite.com/private/
我http://oursite.com/
在seed.txt
文件和文件+^http://www.oursite.com/([a-z0-9\-A-Z]*\/)*
中regex-urlfilter.txt
我认为将:-.*/private/.*
也放入regex-urlfilter.txt
文件中会排除该路径及其下的任何内容,但爬虫仍在该/private/
路径下获取和索引内容。
我需要在服务器上进行某种重启,比如 Solr 吗?还是我的正则表达式实际上不是正确的方法?
谢谢