0

我有一个公司列表,并希望匹配使用谷歌搜索获取的域,以确定哪些域可能属于同一公司。是否有任何现有算法可用于此用例(法律上也允许在商业项目中使用)。

例如,我将 Internet 电影数据库作为公司名称,并说 google 将结果返回给我,其中有效的结果可能是 internetmoviedatabase、internet-movie-database、the-internet-movie-database、theinternetmoviedatabase、internetmovies、internet-movies、imd、 imdb。(注意:我已从列表中排除 TLD 以使问题更简单)

4

1 回答 1

1

听起来您正在寻找一种近似的字符串匹配算法。不确定您是在寻找算法还是实现。

这里已经有一个问题: 字符串匹配算法

一种可能的解决方案是使用 Levenshtein 距离:http ://en.wikipedia.org/wiki/Levenshtein_distance

如果你正在寻找一个实现,如果你谷歌“近似字符串匹配 C++”,这是第一个结果: http: //www.chokkan.org/software/simstring/

祝你好运!

于 2013-04-05T07:33:45.153 回答