solr - 使用 nutch 中的特殊字符启用抓取 url

Question

我正在使用 apache nutch-1.5.1 版本和与 hadoop 1.0.3 集成的 solr 3.6.2。我想抓取域例如“www.my-website.com”有不同的页面，如 1. www.my-website.com/page.1 2. www.my-website.com/page.2.. www .my-website.com/page.1 有很多信息，例如（www.my-website.com/page.1/search?page=2&tab=relevance&q=222）我无法抓取此类链接（其中包含特殊字符(?,=)).. 我在 regex.urlfilter.txt 中评论

跳过包含某些字符的 URL 作为可能的查询等。

-[?*!@=]..

. 但输出仍然没有区别....请分享您的想法提前谢谢Jaipal R

score 0 · Accepted Answer

看看 crawl-urlfilter.txt。有一个类似的条目，如果您真的想抓取这些网址，也应该对其进行评论。

# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]

请小心，否则您可能会陷入无限循环的情况，例如永远不会结束的分页。

您应该添加例外而不是更改规则。

   +www.my-website.com/page.*
   # skip URLs containing certain characters as probable queries, etc. 
   -[?*!@=]

solr - 使用 nutch 中的特殊字符启用抓取 url

跳过包含某些字符的 URL 作为可能的查询等。

-[?*!@=]..

1 回答 1

Related

Reference