我正在使用大量的产品数据集(约 100 万)。这些产品来自许多不同的来源,因此它们列出数据的方式不一致。最大的问题之一是差异产品品牌名称(约 17,000 个独特品牌)。有些品牌有多达 10 个差异需要关联在一起。
问题:
- 间距不一致:Jet Boil VS Jetboil
- 标点符号:格兰杰VS格兰杰
- 噪音词: The North Face VS North Face
- 分类法: Armada VS Armada Skis
- 符号: Phil and Teds VS Phil&Teds
- 拼写错误:巴塔哥尼亚 VS 巴塔哥尼亚
- 其他怪事:贝尔体育 VS 贝尔体育 #81037
示例数据集
Black Diamond
Black Diamond (Uda)
Black Diamond Co
Black Diamond Eq Ltd
Black Diamond Eqp #76800
Black Diamond Equipment
Black Dog Machine Llc
Black Dome Press
Black Dot
Black Dragon
Black Fire
Black Flys
Black Forest Girl
Black Gold
Black Hawk Inc.
Black Hills
Black Knight
Black Label
Black Magic
Black Marine
Black Market Bikes
Black Max
Black Opal
Black Ops
Black Rain Ordance Inc.
Black Rain Ordnance
Black Rapid
Black Ribbon
Black Rifle Disease Engineerin
Black River Bucks
Black Seal
Black Seed
Black Swan
Black Tower
Black Widow
Black's
后果(如评论中所建议)
- 不正确的关联会导致在产品搜索中显示不相关的品牌,从而削弱表示层的可用性
- 缺少关联会导致同一品牌在过滤列表中显示多个,从而削弱表示层的可用性
我意识到这是一个很大的问题,可能超出了堆栈溢出文章可以解决的范围,但我正在寻找有关如何解决此问题的灵感。
欢迎任何可能有帮助的算法、软件模式或过程。