我有一个每月生成大约 10000 个打印页的应用程序。每个报告(大约 2000 个/月)都以 PDF 格式存档在一个简单的网络文件共享中。我正在寻找满足以下要求的文档管理系统:
- 观察存档文件夹并定期或在检测到更改时更新索引
- 提供一个 Intranet 网页,用户可以在其中根据文件名、时间跨度和其他相关文件属性搜索文档
- 全文检索
- 可以处理大型/大量增长的档案
需要明确的是,我在这里寻找一个预先构建的解决方案,接受商业产品。
我有一个每月生成大约 10000 个打印页的应用程序。每个报告(大约 2000 个/月)都以 PDF 格式存档在一个简单的网络文件共享中。我正在寻找满足以下要求的文档管理系统:
需要明确的是,我在这里寻找一个预先构建的解决方案,接受商业产品。
听起来Microsoft Search Server 2008 Express将是一个不错的选择。免费并在几分钟内安装。
我可以建议你谷歌文档。AFAIK 它可以满足您的所有要求。
Plone可以很好地满足您的需求。它具有用于索引 PDF 内容的插件,并且您可以自定义元数据。此外,它还有一个带有内置搜索功能的出色网络界面。最好的部分是它是免费且易于使用的,如果您的需求增长,您可以支付支持费用。
我唯一的建议(乍一看)是您将内容存储在文件系统上,而不是Zope OO 数据库中。您应该只将元数据和索引数据存储在数据库中。这是在文档管理世界中存储大量内容的一种非常常见的方式。
希望有帮助!
汤姆·普尔
正如汤姆所说,Plone 对你所描述的做了。它内置了全文搜索,该搜索依赖于命令行程序 pdftotext 以使 pdf 位于路径中。您可能对以下几个扩展感兴趣:
(抱歉,由于 stackoverflows 新用户政策,缺少链接)