2

我从数据中心收到数据,我必须清理并使数据有用,我最大的问题是一列让我们称之为“service_description”,例如数据中心属于美发沙龙,这一列是手动填写的(文本框)和包含大量数据(十亿),这里是一个小样本

service description

washed the haair 
hair washed and dried
used shampoo on har
nails manicure
nail paint
nail pant
paint the nails

我需要做的是通过破坏一个脚本来将每个类别放在一起,该脚本将分析每一行并为其指定特定类别,例如头发可能是前三行的类别,因为它在所有行中都重复,而指甲是其余的类别,考虑到类别词可能拼写错误。

结果

service description          possible categories

washed the haair                       hair
hair washed and dried                  hair
used shampoo on har                    hair
nails manicure                         nail
nail paint                             nail
nail pant                              nail
paint the nails                        nail
4

1 回答 1

0

我假设您的类别是固定查找。我会用空格分割字符串;对于每个部分,我都会浏览您的类别查找中的所有项目,并选择具有最小 levenshtein 距离的项目。

一些参考资料:

http://en.wikipedia.org/wiki/Levenshtein_distance

http://www.codeproject.com/Articles/13525/Fast-memory-efficient-Levenshtein-algorithm

于 2013-06-11T11:50:20.753 回答