0

我们扫描了数千份旧文件并将关键数据输入数据库。其中一个字段是作者姓名。

我们需要搜索给定作者的文档,但可能输入的确切名称不正确,因为在许多文档中数据是手写的。

我想只搜索姓氏的前几个字母,然后显示一个列表供用户选择。在这个阶段我不知道有多少不同的作者,我怀疑它将是数百而不是数十万。将有数十万份文件。有没有更好的办法?SQL 数据库会更好地处理它吗?

该软件是python,并且会有一个文档列表,每个文档都有一个作者。

4

2 回答 2

0

我认为您可以使用 mongodb 来设置列表字段,其中包含所有可能的作者姓名。例如,您有手写名称“black”,但您无法识别名称中的字母,例如“c”或“e”,您可以将来源名称设置为“black”并添加到可能名称列表“blaek”

于 2012-06-14T13:41:39.060 回答
0

您可以使用Sunburnt,它是一个 Python-Solr 库,它可以访问构建在Lucene之上的Solr

Solr 的摘录:

Solr 是 Apache Lucene 项目中流行的、超快的开源企业搜索平台。它的主要功能包括强大的全文搜索、命中突出显示、分面搜索、动态聚类、数据库集成、富文档(例如,Word、PDF)处理和地理空间搜索。Solr 具有高度可扩展性,提供分布式搜索和索引复制,它为许多世界上最大的互联网站点的搜索和导航功能提供支持。

它将为您提供搜索文档所需的一切,包括部分命中和潜在匹配项,无论您的搜索条件是什么。

于 2012-06-14T13:42:17.583 回答