给定一个大约 1000 万个查询的查询日志,我必须编写一个程序来询问用户的查询,并显示与输入查询最相似的 10 个查询作为输出。此外,在拼写错误的情况下,它可能会建议正确的拼写。
在这种情况下,我研究了一些关于局部敏感哈希的教程,但无法理解如何将它应用于这个问题。首先,我正在考虑按字典顺序对日志进行排序。但我认为就日志大小而言对日志进行排序不是一个好主意,因为将整个日志加载到内存中可能效率不高。
所以可以请任何人建议我解决这个问题的任何想法。谢谢你。
给定一个大约 1000 万个查询的查询日志,我必须编写一个程序来询问用户的查询,并显示与输入查询最相似的 10 个查询作为输出。此外,在拼写错误的情况下,它可能会建议正确的拼写。
在这种情况下,我研究了一些关于局部敏感哈希的教程,但无法理解如何将它应用于这个问题。首先,我正在考虑按字典顺序对日志进行排序。但我认为就日志大小而言对日志进行排序不是一个好主意,因为将整个日志加载到内存中可能效率不高。
所以可以请任何人建议我解决这个问题的任何想法。谢谢你。
如果你想并行处理,你肯定会想看看这个。Mahout 中的 Minhash 聚类
可以在这里找到关于 LSH 的非常详细的信息:挖掘海量数据集