0

我正在使用 apache nutch-1.5.1 版本和与 hadoop 1.0.3 集成的 solr 3.6.2。我想抓取域例如“www.my-website.com”有不同的页面,如 1. www.my-website.com/page.1 2. www.my-website.com/page.2.. www .my-website.com/page.1 有很多信息,例如(www.my-website.com/page.1/search?page=2&tab=relevance&q=222)我无法抓取此类链接(其中包含特殊字符(?,=)).. 我在 regex.urlfilter.txt 中评论

跳过包含某些字符的 URL 作为可能的查询等。

-[?*!@=]..

. 但输出仍然没有区别....请分享您的想法提前谢谢Jaipal R

4

1 回答 1

0

看看 crawl-urlfilter.txt。有一个类似的条目,如果您真的想抓取这些网址,也应该对其进行评论。

# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]

请小心,否则您可能会陷入无限循环的情况,例如永远不会结束的分页。

您应该添加例外而不是更改规则。

   +www.my-website.com/page.*
   # skip URLs containing certain characters as probable queries, etc. 
   -[?*!@=] 
于 2013-04-01T22:02:52.300 回答