1

我正在尝试从 Nutch 编写我自己的 Crawl.java 版本,在那里我会做一些不同的事情。我不想使用 Nutch 源代码。我只想干净地导入一些罐子并开始使用我的应用程序。我应该如何提供 conf/crawl-urlfilter.txt 和其他所需的 conf 文件?

有人可以在这里帮助我吗?谢谢

4

1 回答 1

1

一种简单的方法是将代码打包到 jar 中。确保在开始爬行的课程之一中包含一个主要内容。将该 jar 文件放在 Nutch 安装的 lib 文件夹中。您现在可以使用以下命令开始爬行(假设您的 PATH 已正确设置为查找nutch命令):

nutch com.xyz.YourCrawlerMain

其中“com.xyz.YourCrawlerMain”代表你的主类来启动你的爬行。

这将使用正确设置的 Nutch 类路径启动您的爬虫。

对于配置文件,只需直接在 Nutch 安装的 conf 文件夹中更新它们。

更新

我正在做类似的事情,我可以使用以下设置从我的应用程序中使用 nutch:设置您的类路径以包含 Nutch 文件夹(以便它可以找到插件)、Nutch/conf 文件夹并包含来自 Nutch 的所有 jars /lib + nutch.jar 从 nutch 文件夹。

但请注意,如果您的应用程序在 Web 容器中运行。我不得不弄乱类路径才能使其正常工作......

于 2010-07-22T15:02:25.087 回答