我有一个包含机构列表(大学、医院等)的大型数据库。机构的名称来自不同的来源,同一机构的拼写可能不同。例如,它们可能拼写错误,或者单词可能被缩短(“uni”、“univ”或“university”)
给定一个我需要插入数据库的名称,是否有一种实用的方法来查找该机构是否已经在数据库中?这不是一个研究项目,所以我正在寻找一个相当快的解决方案。
我正在使用 django 和 postgresql,但我想这并不重要。
我有一个包含机构列表(大学、医院等)的大型数据库。机构的名称来自不同的来源,同一机构的拼写可能不同。例如,它们可能拼写错误,或者单词可能被缩短(“uni”、“univ”或“university”)
给定一个我需要插入数据库的名称,是否有一种实用的方法来查找该机构是否已经在数据库中?这不是一个研究项目,所以我正在寻找一个相当快的解决方案。
我正在使用 django 和 postgresql,但我想这并不重要。
您可能应该考虑使用专用的搜索引擎。Django-haystack使您能够轻松地将 Solr、Whoosh 或 Xapian 等搜索引擎添加到您的项目中。
听起来您想在数据库中找到一个与您给出的值有小的词汇距离的值。查找带有前缀的东西相当简单,但拼写错误的单词更难。您可能想阅读Peter Norvig 关于拼写校正器的帖子。