我有数十万个 PDF,目前存储在文件系统中。我有一个自定义应用程序,作为对其实际目的的事后考虑,它提供了对这些 PDF 的访问。我想从自定义应用程序中取出“存储和检索”部分,并使用开源文档存储后端。
应该通过 REST API 访问 PDF 商店,这样用户就不需要自定义客户端来进行基本的文档浏览和查看。存储 PDF 的程序也应该能够通过 REST API 工作。他们将提供实际的二进制或 ASCII 数据以及结构化元数据,这些元数据以后可用于检索。
一个典型的检索查询是“给我所有在 X 天和 Y 天之间创建的文档类型为 A 或 B 的文档”。
我的研究,是否存在这样的存储后端,结果是空的。你们中有人知道提供这些功能的系统吗?考虑了开源首选、价格合理的系统。
我不是在寻找关于如何使用可用技术“自己动手”的建议。相反,我试图找出是否可以避免这种情况。提前谢谢了。