1

我们从不受控制的外部来源接收到大量类型化的数据。数据涵盖家用电器的品牌/型号。因为我们无法控制强制验证/自动完成,所以这些数据的拼写/格式非常混乱。

我知道像弹性搜索这样的东西可以在查询时忽略拼写错误。但是,我希望能够对数据进行分组并自动规范化,以便对其进行分组。

我考虑过计算任何给定文本之间的 levenshtein 距离并将相似的条目分组在一起。然而,由于许多这些设备的名称中都有型号、容量等,因此会导致大量错误匹配。更不用说是一个相当计算密集的操作。

使用住宅燃气锅炉的示例

  • 威能 Ecotec Pro 28
  • 威联Ecotec Pro 28
  • 威能 Eco Tec 28 Pro
  • 威灵特 turbomax 242/2-5
  • POTTERTON Promax Combi 28 HE Plus
  • 波特顿 promax 28

前3个和最后2个是一样的。显然,错误的范围很大,包括格式和拼写。

4

0 回答 0