我将公司名称列表与 R 和 agrep() 进行匹配,因为数据在遗留系统中存储错误 - 没有第 4 范式,公司记录在与客户相同的级别,这意味着新的公司条目每一位新客户,都会为一家公司带来很多不同的公司名称——这在很多情况下都很好用。
有时,特别是对于短字符串,我得到 - 至少对我来说 - 奇怪的匹配,例如(ABC 是第一个公司名称):
ABC ABAXIS Europe GmbH
ABC ABB Europe
ABC ABB Group
ABC ABB Stotz Kontakt GmbH
ABC ABM Financial News
ABC ABN AMRO Bank NV
ABC AC Klöser GmbH
ABC ACCBank
ABC ACEA S.p.A.
我正在使用agrep()
以下参数:
agrep(vector1, vector2, value = TRUE, ignore.case = FALSE, max.distance = 0.01)
除了调整最大距离或更好的方法之外,还有其他方法agrep()
吗?
提前致谢