regex - Nutch regex-urlfilter 语法

Question

我正在运行 Nutch v. 1.6，它正在正确地抓取特定站点，但我似乎无法为该文件获取正确的语法NUTCH_ROOT/conf/regex-urlfilter.txt。

我要抓取的网站有一个类似这样的 URL：

http://www.example.com/foo.cfm

在该页面上有许多与以下模式匹配的链接：

http://www.example.com/foo.cfm/Bar_-_Foo/Extra/EX/20817/ID=6976

我也想抓取与上面第二个示例匹配的链接。在我的regex-urlfilter.txt我有以下内容：

+^http://www.example.com/foo.cfm$
+^http://www.example.com/foo.cfm/(.+)*$

Nutch 匹配第一个并正确抓取它，但似乎没有使用另一个过滤器获取链接。如何让 Nutch 像上面第二个那样抓取 URL？

我试过以下没有运气：

+^http://www.example.com/foo.cfm/(.+)*$
+^http://www.example.com/foo.cfm/(.)*$
+^http://www.example.com/foo.cfm/.+$
+^http://www.example.com/foo.cfm/(.*)*$

在我的NUTCH_ROOT/urls/nutch我有：

http://www.example.com/foo.cfm/

score 7 · Accepted Answer

根据http://wiki.apache.org/nutch/FAQ#What_happens_if_I_inject_urls_several_times.3F你不能有多个 URL（它们将被忽略）。只放什么：

+^http://www.example.com/foo.cfm/(.+)*$

这应该涵盖您的第一行：+^http://www.example.com/foo.cfm$以及，或者，如果有问题，请/尝试：

+^http://www.example.com/foo.cfm//?(.+)*$

哪里//?应该代表性格/或

regex - Nutch regex-urlfilter 语法

1 回答 1

Related

Reference