我有一个公司列表,并希望匹配使用谷歌搜索获取的域,以确定哪些域可能属于同一公司。是否有任何现有算法可用于此用例(法律上也允许在商业项目中使用)。
例如,我将 Internet 电影数据库作为公司名称,并说 google 将结果返回给我,其中有效的结果可能是 internetmoviedatabase、internet-movie-database、the-internet-movie-database、theinternetmoviedatabase、internetmovies、internet-movies、imd、 imdb。(注意:我已从列表中排除 TLD 以使问题更简单)