3

MongoDB 是否有一个功能,我可以存储 PDF、文本或 .doc/docx 文档并搜索它们或在两个文档之间根据其内容中找到的关键字进行匹配?

例如:

我可能想存储一份名为“claim.txt”的文档,其中包含
诊断代码、简短描述、日期和金额的值。
我需要存储另一个名为“physician_diagnosis.pdf”的文件,其中包含匹配的简短描述等文本。

我想发出查询,在那里我可以找到任何具有匹配日期和相同诊断的文档。(例如“肺炎”、“2012 年 12 月 12 日”)

MongoDB 仅使用它的 API 是否可以实现这样的事情,还是我需要做一些预处理?

如果可能的话,请您指出好的示例和文档。

4

1 回答 1

1

您的任务可能更适合 Solr ( http://lucene.apache.org/solr/ ) 之类的东西,它具有许多不同文档的输入 ( http://wiki.apache.org/solr/ExtractingRequestHandler )。不过,您将不得不编写一些代码来进行正确的提取。

MongoDB 更适用于结构化数据——尽管我们称它们为文档,但这里并不是指“PDF 文档”或“word 文档”。它只是支持我们称为文档的嵌套字段类型的通用格式,而不是不允许这样做的关系数据库行。

于 2013-07-23T14:36:37.430 回答