我从数据中心收到数据,我必须清理并使数据有用,我最大的问题是一列让我们称之为“service_description”,例如数据中心属于美发沙龙,这一列是手动填写的(文本框)和包含大量数据(十亿),这里是一个小样本
service description
washed the haair
hair washed and dried
used shampoo on har
nails manicure
nail paint
nail pant
paint the nails
我需要做的是通过破坏一个脚本来将每个类别放在一起,该脚本将分析每一行并为其指定特定类别,例如头发可能是前三行的类别,因为它在所有行中都重复,而指甲是其余的类别,考虑到类别词可能拼写错误。
结果
service description possible categories
washed the haair hair
hair washed and dried hair
used shampoo on har hair
nails manicure nail
nail paint nail
nail pant nail
paint the nails nail