我正在寻找一种方法来搜索数据库并找到电子邮件地址之间的相似之处。我唯一能想到的解决方案是 O(N^2),并且涉及一个嵌套循环。基本上抓住一个电子邮件地址,然后一遍又一遍地检查其余地址。这将非常消耗,因为我正在处理数据库中的 100,000 个电子邮件地址。如果有什么不同,这将作为 Ruby on Rails 应用程序的后台作业来实现。
有没有办法做到这一点?
我真的只是在寻找基本的相似之处。一个例子是
docjohnson@gmail.com
docjohnson1@gmail.com
docjohnson333@gmail.com
docjohnson@hotmail.com
我希望那些都标记为彼此相似。
谢谢您的帮助!
编辑:我正在使用通过 Mongoid 连接到 ROR 的 Mongo 数据库,如果这完全改变了游戏。