我们有数百万个非常敏感的文档(docx、pfd、xlsx 等)由客户上传到我们的应用程序中。在我们的应用程序中,我们使用 Sphinx 在这些文档中进行全文搜索。流程如下:
- 通过应用表单上传
- 文档中的纯文本抓取器
- 将文档存储到加密的 S3 存储桶
- 将抓取的纯文本存储到 MySQL 数据库中
- 从 MySQL DB 明文到存储在 SSD 上的 Sphinx 索引的索引器
由于安全和性能问题,我们必须完全重建上述流程。MySQL数据库中的纯文本是这个解决方案中最大的“nono”,但我们必须分析市场上任何可能的解决方案。文件的安全和加密是业务的重中之重。除此之外,Sphinx 本身的问题是每周一次。
任何对文档解决方案中的搜索引擎和全文搜索有经验的人——我很想听听您的意见。