java - 我需要什么 Nutch 的 jar 来编写我自己的 Crawl.java

Question

我正在尝试从 Nutch 编写我自己的 Crawl.java 版本，在那里我会做一些不同的事情。我不想使用 Nutch 源代码。我只想干净地导入一些罐子并开始使用我的应用程序。我应该如何提供 conf/crawl-urlfilter.txt 和其他所需的 conf 文件？

有人可以在这里帮助我吗？谢谢

score 1 · Accepted Answer

一种简单的方法是将代码打包到 jar 中。确保在开始爬行的课程之一中包含一个主要内容。将该 jar 文件放在 Nutch 安装的 lib 文件夹中。您现在可以使用以下命令开始爬行（假设您的 PATH 已正确设置为查找nutch命令）：

nutch com.xyz.YourCrawlerMain

其中“com.xyz.YourCrawlerMain”代表你的主类来启动你的爬行。

这将使用正确设置的 Nutch 类路径启动您的爬虫。

对于配置文件，只需直接在 Nutch 安装的 conf 文件夹中更新它们。

更新

我正在做类似的事情，我可以使用以下设置从我的应用程序中使用 nutch：设置您的类路径以包含 Nutch 文件夹（以便它可以找到插件）、Nutch/conf 文件夹并包含来自 Nutch 的所有 jars /lib + nutch.jar 从 nutch 文件夹。

但请注意，如果您的应用程序在 Web 容器中运行。我不得不弄乱类路径才能使其正常工作......

1 回答 1