c# - 标准化文本输入数据

翻译自：https://stackoverflow.com/questions/44671579 2017-06-21T09:06:46.587

31 次

1

我们从不受控制的外部来源接收到大量类型化的数据。数据涵盖家用电器的品牌/型号。因为我们无法控制强制验证/自动完成，所以这些数据的拼写/格式非常混乱。

我知道像弹性搜索这样的东西可以在查询时忽略拼写错误。但是，我希望能够对数据进行分组并自动规范化，以便对其进行分组。

我考虑过计算任何给定文本之间的 levenshtein 距离并将相似的条目分组在一起。然而，由于许多这些设备的名称中都有型号、容量等，因此会导致大量错误匹配。更不用说是一个相当计算密集的操作。

使用住宅燃气锅炉的示例

威能 Ecotec Pro 28
威联Ecotec Pro 28
威能 Eco Tec 28 Pro
威灵特 turbomax 242/2-5
POTTERTON Promax Combi 28 HE Plus
波特顿 promax 28

前3个和最后2个是一样的。显然，错误的范围很大，包括格式和拼写。

0 回答 0