0

给定一个大约 1000 万个查询的查询日志,我必须编写一个程序来询问用户的查询,并显示与输入查询最相似的 10 个查询作为输出。此外,在拼写错误的情况下,它可能会建议正确的拼写。

在这种情况下,我研究了一些关于局部敏感哈希的教程,但无法理解如何将它应用于这个问题。首先,我正在考虑按字典顺序对日志进行排序。但我认为就日志大小而言对日志进行排序不是一个好主意,因为将整个日志加载到内存中可能效率不高。

所以可以请任何人建议我解决这个问题的任何想法。谢谢你。

4

1 回答 1

0

如果你想并行处理,你肯定会想看看这个。Mahout 中的 Minhash 聚类

  1. 生成带状疱疹(具有适当 n 的 n-gram)
  2. 生成 MinHash
  3. 运行 LSH

可以在这里找到关于 LSH 的非常详细的信息:挖掘海量数据集

于 2014-02-20T01:51:23.307 回答