1

我有大量要索引和查询的文档(主要是 PDF)。

我想按年将所有这些文档存储在文件系统结构中。

我目前在 Solr 中有这个设置。但我必须运行脚本从 PDF 中提取元数据,然后更新索引。

有没有一种产品可以让我将一个新的 PDF 弹出到一个文件夹中,并由 Solr 自动索引。

我已经看到 Alfresco 这样做了,但它有一些缺点 - 在这些方面还有什么其他的吗?

或者我会使用 nutch 来抓取我的文件系统并将更新发布到 Solr?我不确定我应该怎么做?

4

1 回答 1

2

Solr 是搜索服务器而不是爬虫。正如您所指出的,Nutch 可以做到这一点(我已经将它用于类似的用例,索引知识库转储)。

本质上,您将托管一个以文件夹结构的根为文档根的网络服务器。然后允许在此网络服务器上列出目录。然后,Nutch 可以抓取此文档转储的顶级 url。

一旦你有了这个 Nutch 创建的索引,你也可以通过 solr 公开它

于 2012-06-14T13:18:04.093 回答