我有一个有点高水平的问题,所以我会尽量具体。
我正在进行大量研究,涉及将不同的数据集与引用同一实体(通常是公司或金融证券)的标题信息相结合。这种记录链接通常涉及标题信息,其中名称是唯一常见的主要标识符,但通常可以使用一些辅助信息(例如城市和州、操作日期、相对大小等)。这些匹配通常是一对多的,但也可能是一对一的,甚至是多对多的。我通常是手动完成这种匹配,或者对已清理的子字符串进行非常基本的文本比较。我偶尔会使用一个简单的匹配算法,比如 Levenshtein 距离测量,但我没有从中得到太多,部分原因是我没有一个好的正式的应用方法。
我的猜测是,这是一个相当普遍的问题,并且必须已经开发了一些正式的流程来完成此类事情。我已经阅读了一些关于该主题的学术论文,这些论文涉及给定方法的理论适用性,但我还没有找到任何好的资源来介绍配方或至少是一个实用的框架。
我的问题如下:
有谁知道实现多维模糊记录匹配的良好来源,例如书籍或网站或已发表的文章或工作论文?
我更喜欢有实际例子和明确方法的东西。
该方法可以是迭代的,在中间阶段进行人工检查以进行改进。
(编辑)链接数据用于统计分析。因此,一点点噪音是可以的,但是对于更少的“不正确匹配”而不是更少的“不正确的不匹配”有强烈的偏好。
如果他们在 Python 中,那就太棒了,但不是必需的。
最后一件事,如果重要的话,是我不太关心计算效率。我没有动态实现这一点,我通常处理几千条记录。