任何人都可以提供有关如何正确配置 apache nutch 的指导,以便在抓取网站时获取数据库中的一些记录。我将不胜感激!
这里详细介绍:
我的bin/urls/seed.txt
文件中有以下行:
http://transmetod.ru/
以下是 regex-urlfilter.txt 文件中的行(所有其他正则表达式都已注释):
+^http://([a-z0-9]*\.)*transmetod.ru/([a-z0-9]*\.)*
基本上我希望数据库中出现很多记录作为爬行的结果,但唯一得到的只是一个带有基本 url 的记录(没有任何其他记录在 url 中有额外的子链接)
这是我用来运行apache-nutch-2.1项目的命令行:
./nutch crawl urls -depth 3 -topN 10000
谁能指出我犯的错误或提供一些建议?
PS:基本上,当我构建项目并在没有任何更改的情况下运行它时,我也没有得到一堆记录......(如果我没记错的话)