我有一列包含来自世界各地不同用户的文本输入,我想对它们进行分组,以便彼此相似的字符串更接近。该列包含非英语语言的字符串,此外还可能包含拼写错误的单词。
我一直在研究 N-gram 和 Levenshtein 距离,但这些似乎需要我记住一个字符串来匹配行。
例如,我想
|Comcast |
|how to play basketball|
|Walmart |
|www.Comcast.net |
|Wamlart |
|basketball |
最终看起来像:
|Comcast |
|www.Comcast.net |
|how to play basketball|
|basketball |
|Walmart |
|Wamlart |
任何帮助,将不胜感激。谢谢你。