好的,我已经问过了,但我想我并没有按照 stackoverflow 期望的方式问它。希望这次我能得到更多的运气和答案。
我正在尝试运行 nutch 来抓取此站点:http ://www.tigerdirect.com/
我希望它抓取该网站和所有子链接。
问题是它不起作用。在我的 reg-ex 文件中,我尝试了几件事,但都没有奏效:
+^http://([a-z0-9]*\.)*tigerdirect.com/
+^http://tigerdirect.com/([a-z0-9]*\.)*
我的 urls.txt 是:
http://tigerdirect.com
基本上我想要完成的是抓取他们网站上的所有产品页面,这样我就可以创建一个电子产品的搜索引擎(我正在使用 solr)。最终,我也想爬取 bestbuy.com、newegg.com 和其他网站。
顺便说一句,我从这里遵循了教程:http ://wiki.apache.org/nutch/NutchTutorial并且我正在使用会话 3.3 中提到的脚本(在修复了它的错误之后)。
我有 java、android 和 bash 的背景,所以这对我来说有点新。5年前我曾经在perl中做正则表达式,但这一切都被遗忘了。
谢谢!