这里有一个谜...
我有两个数据库,包含相同的 50000 多种电子产品,我想将一个数据库中的产品与另一个数据库中的产品进行匹配。但是,产品名称并不总是相同的。我尝试使用 Levenshtein 距离来测量字符串相似度,但这并没有奏效。例如,
-LG 42CS560 42-Inch 1080p 60Hz LCD HDTV
-LG 42 Inch 1080p LCD HDTV
这些项目是相同的,但它们的产品名称差异很大。
另一方面...
-LG 42 Inch 1080p LCD HDTV
-LG 50 Inch 1080p LCD HDTV
这些是具有非常相似产品名称的不同产品。
我应该如何解决这个问题?