我正在尝试从 Nutch 编写我自己的 Crawl.java 版本,在那里我会做一些不同的事情。我不想使用 Nutch 源代码。我只想干净地导入一些罐子并开始使用我的应用程序。我应该如何提供 conf/crawl-urlfilter.txt 和其他所需的 conf 文件?
有人可以在这里帮助我吗?谢谢
一种简单的方法是将代码打包到 jar 中。确保在开始爬行的课程之一中包含一个主要内容。将该 jar 文件放在 Nutch 安装的 lib 文件夹中。您现在可以使用以下命令开始爬行(假设您的 PATH 已正确设置为查找nutch命令):
nutch com.xyz.YourCrawlerMain
其中“com.xyz.YourCrawlerMain”代表你的主类来启动你的爬行。
这将使用正确设置的 Nutch 类路径启动您的爬虫。
对于配置文件,只需直接在 Nutch 安装的 conf 文件夹中更新它们。
更新
我正在做类似的事情,我可以使用以下设置从我的应用程序中使用 nutch:设置您的类路径以包含 Nutch 文件夹(以便它可以找到插件)、Nutch/conf 文件夹并包含来自 Nutch 的所有 jars /lib + nutch.jar 从 nutch 文件夹。
但请注意,如果您的应用程序在 Web 容器中运行。我不得不弄乱类路径才能使其正常工作......