0

在此处遵循 Apache Nutch 教程:

如教程中所述,我已将 regex-urlfilter.txt 的最后一行设置为:

+^http://([a-z0-9]*\.)*nutch.apache.org/

我的 nutch-site.xml 文件仅包含以下行

<property>
 <name>http.agent.name</name>
 <value>My Nutch Spider</value>
</property>

我的 seed.txt 文件是:

http://nutch.apache.org/

但是,当我爬行时

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

我收到“没有要获取的 URL”错误。有谁知道为什么?

4

1 回答 1

0

配置对我来说看起来不错。您已经在运行时/本地文件夹中进行了这些更改,对吗?seed.txt 将在 NUTCH_HOME/runtime/local/urls 文件夹中,而 regex-urlfilter.txt 和 nutch-site.xml 将在 NUTCH_HOME/runtime/local/conf 文件夹中

NUTCH_HOME 是安装目录

于 2012-06-23T05:12:36.863 回答