假设您有一个包含 varchar 列的大表。
您将如何匹配在 varchar col 中包含“首选”一词但数据有些嘈杂并且偶尔包含拼写错误的行,例如:
['$2.10 Cumulative Convertible Preffered Stock, $25 par value',
'5.95% Preferres Stock',
'Class A Preffered',
'Series A Peferred Shares',
'Series A Perferred Shares',
'Series A Prefered Stock',
'Series A Preffered Stock',
'Perfered',
'Preffered C']
上述拼写错误中“首选”一词的排列似乎表现出家族相似性,但它们几乎没有共同点。请注意,拆分每个单词并在每一行中的每个单词上运行levenshtein将非常昂贵。
更新:
还有其他几个这样的例子,例如“restricted”:
['Resticted Stock Plan',
'resticted securities',
'Ristricted Common Stock',
'Common stock (restrticted, subject to vesting)',
'Common Stock (Retricted)',
'Restircted Stock Award',
'Restriced Common Stock',]