有一个有趣的问题,正在寻找正确的解决方案。我们有大约 100,000 个不同大小的 PDF 文档,平均大小为 150 页。它当前位于 RAID6 服务器上,并且也在异地备份。我们需要索引总共 6.5TB 的 PDF。
我们目前正在将 PDF 转换为文本文件,并将它们存储在服务器上类似的文件夹结构中。然后需要对这些内容进行索引并使其可搜索,包括指向原始文件夹的反向链接。文本文件使用与 PDF 相同的名称,并添加了额外的命名约定。如果我的估计是正确的,这意味着需要索引的词接近 40 亿个。
索引这些文件的合适解决方案是什么?