我正在使用 nutch-1.6 通过从终端触发命令进行爬行。我在网上搜索过,发现像 0.9,1.0 这样的早期版本的 nutch 带有可以部署在 tomcat 服务器上的 war 文件,但我找不到在 tomcat 上部署 nutch 1.6 的任何文档。
我不想每次都从终端触发命令,而是想通过在 tomcat 上部署 nutch 来自动化爬虫系统,这样我就可以通过网页发出命令。
Nutch 2.2.1 具有基于 REST 的 API 来启动作业、从 db(已配置存储)检索数据、停止作业等,
启动 Nutch 2.2.1
./bin/nutch nutchserver 9000
服务器成功启动后,我们可以使用休息请求访问资源
http://localhost:9000/nutch/confs/default
http://localhost:9000/nutch/jobs
在服务器ContentType上创建新的爬网作业
: application/json
http 方法类型: PUT
Payload:
{
"crawl":"123",
"type":"crawl",
"conf":"default",
"args":
{ "class":"org.apache.nutch.crawl.Crawler",
"seed":"http://www.somesite.com",
"seedDir":"runtime/local/url/url.txt", "depth":2 }
}