4

我正在运行 Nutch v. 1.6,它正在正确地抓取特定站点,但我似乎无法为该文件获取正确的语法NUTCH_ROOT/conf/regex-urlfilter.txt

我要抓取的网站有一个类似这样的 URL:

http://www.example.com/foo.cfm

在该页面上有许多与以下模式匹配的链接:

http://www.example.com/foo.cfm/Bar_-_Foo/Extra/EX/20817/ID=6976

我也想抓取与上面第二个示例匹配的链接。在我的regex-urlfilter.txt我有以下内容:

+^http://www.example.com/foo.cfm$
+^http://www.example.com/foo.cfm/(.+)*$

Nutch 匹配第一个并正确抓取它,但似乎没有使用另一个过滤器获取链接。如何让 Nutch 像上面第二个那样抓取 URL?

我试过以下没有运气:

+^http://www.example.com/foo.cfm/(.+)*$
+^http://www.example.com/foo.cfm/(.)*$
+^http://www.example.com/foo.cfm/.+$
+^http://www.example.com/foo.cfm/(.*)*$

在我的NUTCH_ROOT/urls/nutch我有:

http://www.example.com/foo.cfm/
4

1 回答 1

7

根据http://wiki.apache.org/nutch/FAQ#What_happens_if_I_inject_urls_several_times.3F你不能有多个 URL(它们将被忽略)。放什么:

+^http://www.example.com/foo.cfm/(.+)*$

这应该涵盖您的第一行:+^http://www.example.com/foo.cfm$以及,或者,如果有问题,请/尝试:

+^http://www.example.com/foo.cfm//?(.+)*$

哪里//?应该代表性格/

于 2012-12-18T10:32:36.267 回答