0

我想在将文档或网站提供给 apache solr 时自动为其编制索引。我们怎样才能做到这一点?我已经看到了使用需要通过 php 脚本调用的 CRON 作业的示例,但它们的解释并不十分清楚。使用 java api SolrJ,有什么方法可以自动索引数据,而无需手动执行?

4

2 回答 2

0

您可以编写一个调度程序并调用正在执行索引/重新索引的 solrJ 代码。

要编写调度程序,请参阅以下链接

http://www.mkyong.com/java/how-to-run-a-task-periodically-in-java/

http://archive.oreilly.com/pub/a/java/archive/quartz.html

于 2015-05-28T06:16:14.907 回答
0

如果您使用的是 Apache Nutch,则必须使用 Nutch solr-index 插件。使用此插件,您可以在 Nutch 抓取 Web 文档后立即对其进行索引。但主要问题是如何安排 Nutch 定期启动。

据我所知,您必须为此目的使用调度程序。我确实知道一个名为 Nutch-base 的旧 Nutch 项目,它使用Apache Quartz来调度 Nutch 作业。您可以从以下链接找到 Nutch-base 的源代码:

https://github.com/mathieuravaux/nutchbase

如果你考虑这个项目,有一个名为 admin-scheduling 的插件。虽然它是为旧版本的 Nutch 实现的,但它可能是为 Nutch 开发调度程序插件的一个很好的起点。

值得一提的是,如果您要定期抓取网站并获取新到达的链接,您可以使用本教程

于 2015-05-28T06:46:16.357 回答