1

我正在使用 nutch-1.6 通过从终端触发命令进行爬行。我在网上搜索过,发现像 0.9,1.0 这样的早期版本的 nutch 带有可以部署在 tomcat 服务器上的 war 文件,但我找不到在 tomcat 上部署 nutch 1.6 的任何文档。

我不想每次都从终端触发命令,而是想通过在 tomcat 上部署 nutch 来自动化爬虫系统,这样我就可以通过网页发出命令。

4

1 回答 1

0

Nutch 2.2.1 具有基于 REST 的 API 来启动作业、从 db(已配置存储)检索数据、停止作业等,

  • 作业管理器 API
  • 数据库读取 API
  • 配置 API

Nutch2 教程维基

在 Eclipse 中运行 Nutch

启动 Nutch 2.2.1

./bin/nutch nutchserver 9000

服务器成功启动后,我们可以使用休息请求访问资源

  • 获取默认配置
    http://localhost:9000/nutch/confs/default

  • http://localhost:9000/nutch/jobs
    在服务器ContentType上创建新的爬网作业 : application/json
    http 方法类型: PUT
    Payload:

      {
        "crawl":"123",
        "type":"crawl",
        "conf":"default",
        "args":
            { "class":"org.apache.nutch.crawl.Crawler", 
              "seed":"http://www.somesite.com", 
               "seedDir":"runtime/local/url/url.txt", "depth":2 }
    
      }
于 2014-05-15T12:08:20.030 回答