1

我正在寻找一个非常具体的领域的建议。这是故事:我正在处理我的 node.js 项目,以下是我想添加到 mt 应用程序中的工具。我有很多 URL(大约 20,000 个),我想做的是将相似的 URL 聚集在一起。如果两个 url 相似,则应将它们重新组合到同一个集群中。

我已经找到了一个有趣的算法:Simil,它提供了两个字符串之间的相似度百分比:http ://www.accessmvp.com/tomvanstiphout/simil.htm

这里的问题是找到一种“干净”的方法来遍历我的整个 url 列表中的 simil 算法(而不是将它们全部相互比较)

我的提示是将 simil 算法与一些 map/reduce 结合起来。但我真的不觉得这种方式很明显。

有人做过这样的事情吗?你的线索是什么?

我会很感激任何帮助。奥斯特罗

4

0 回答 0