我们正在寻求开发一个报告应用程序来报告存储在大量 XML 文件中的数据。约 3,000,000 个文件,大小从 7KB 到 5MB 不等(每个文件符合相同的架构)。我猜大概会有大约 200GB 的 XML。我正在查看一些开源 XML 数据库(Sedna、BaseX 和 eXist-db),但我不确定这些系统的扩展性如何,我在这里阅读了这三个数据库的比较。这就是我对可扩展性的担忧的来源。
关于我们想要做的一些细节是: 我们不会更改任何 XML 文件中的数据,并且每天都会添加新文件。因为我们关心报告查询性能对我们来说很重要,所以添加和索引新文件所花费的时间对我们来说并不是一个高优先级。
我想知道是否有人有类似规模使用这些系统的经验?我查看了 BaseX统计页面,看到了一些相当大的 XML 实例,但没有提及性能。
我们不需要开源产品,MarkLogic 系统看起来可以很好地满足要求,但我很好奇开源产品做了什么。