我想计算在数千个条目的列表中出现某些大学课程的次数。问题是课程并不总是拼写相同。例如,Computer Engineering
可以拼写为Computers Engineering
。测试两个字符串是否非常相似的正确、优雅的方法是什么?
问问题
97 次
1 回答
2
我会尝试使用stemming规范化字符串。这个想法是 - 给每个字符串它的规范化形式,两个不同的字符串,代表同一个词很可能有相同的规范形式(例如,将有相同的大炮形式,你会得到一个匹配)。Computer
Computers
波特词干算法通常用于规范化。
另一种选择 - 以彼此之间的距离对字符串进行分级,建议的Levenshtein Distance可以帮助你,但就个人而言 - 我更喜欢规范化。
于 2012-11-05T16:56:12.477 回答