0

在我们的应用程序中,Heritrix 被用作抓取引擎,一旦抓取工作完成,我们将手动启动端点以从网站下载 PDF。我们希望在抓取作业完成后立即自动执行此下载 pdf 任务。HEritrix 是否提供任何 URI/webservice 方法 - 返回作业状态?(或)我们是否需要创建一个轮询应用程序来持续监控作业的状态?

4

1 回答 1

0

我不知道是否有任何选项可以在没有持续监控的情况下执行此操作,但您可以使用Heritrix API获取工作状态,例如

curl -v -d "action=" -k -u admin:admin --anyauth --location -H "Accept: application/xml" https://localhost:8443/engine/job/myjob

为您提供 XML,您可以从中读取工作状态。

另一个可能更简单(但不是那么“专业”)的选项是检查您的工作 warcs 目录是否包含扩展名为 .open 的文件。如果没有 - 工作就完成了。

于 2016-02-09T05:27:50.937 回答