我正在使用 apache nutch-1.5.1 版本和与 hadoop 1.0.3 集成的 solr 3.6.2。我想抓取域例如“www.my-website.com”有不同的页面,如 1. www.my-website.com/page.1 2. www.my-website.com/page.2.. www .my-website.com/page.1 有很多信息,例如(www.my-website.com/page.1/search?page=2&tab=relevance&q=222)我无法抓取此类链接(其中包含特殊字符(?,=)).. 我在 regex.urlfilter.txt 中评论
跳过包含某些字符的 URL 作为可能的查询等。
-[?*!@=]..
. 但输出仍然没有区别....请分享您的想法提前谢谢Jaipal R