我有一个按公司名称排序的数据集。有时名称拼写错误并显示为唯一条目:
Name
ABC Company
ABc Company
DEF Company
def compANY
Ddf Cmpany
abC comPany
事实上,这些条目是相同的两个公司名称的变体。这显然是我的初始数据集的一个问题,但我需要注意它以正确处理我的数据。
Name
ABC Company
DEF Company
除了针对类似字典的数据结构测试单词的修改版本的长循环之外,我不知道如何解决这个问题。是否有用于拼写检查的库(甚至对公司名称有意义)?
我会很感激任何帮助,并且不喜欢任何包裹。谢谢你。