0

任何人都可以提供有关如何正确配置 apache nutch 的指导,以便在抓取网站时获取数据库中的一些记录。我将不胜感激!

这里详细介绍:

我的bin/urls/seed.txt文件中有以下行:

http://transmetod.ru/

以下是 regex-urlfilter.txt 文件中的行(所有其他正则表达式都已注释):

+^http://([a-z0-9]*\.)*transmetod.ru/([a-z0-9]*\.)*

基本上我希望数据库中出现很多记录作为爬行的结果,但唯一得到的只是一个带有基本 url 的记录(没有任何其他记录在 url 中有额外的子链接)

这是我用来运行apache-nutch-2.1项目的命令行:

./nutch crawl urls -depth 3 -topN 10000

谁能指出我犯的错误或提供一些建议?

PS:基本上,当我构建项目并在没有任何更改的情况下运行它时,我也没有得到一堆记录......(如果我没记错的话)

4

1 回答 1

0

Try changing you regex filter to:

+^http://([a-z0-9]*.)transmetod.ru/

Also, when you first run Nutch, it will crawl the urls you put in your seed file. The next time your run the crawl, using the same crawl folder, It should pick up the outlinks of the first page and crawl them.

于 2013-05-14T20:04:16.000 回答