0

寻找一些关于从 nosql 数据库中的一堆条目中生成常用单词和短语列表的建议。基本上我们有一堆由某人发的帖子,我们想告诉他们“嘿,你经常使用这些词/短语”。

我对这个有点难过。

我的应用程序是 ruby​​ on rails、backbone-js 和 redis。

4

1 回答 1

0

由于不清楚帖子是如何存储的,我假设您可以获得所有帖子的数组。

查找最常见的不常见单词的简单算法如下:遍历所有帖子的数组,然后从除单词之外的任何内容中删除帖子并将其拆分为单词。遍历条目中的所有单词,并将您看到该单词的次数加 1。对所有条目中的所有单词完成此操作后,您将获得一个包含所有单词出现次数的哈希值。删除最常用的词,这里是100 个常用词的例子。您可能应该在您的应用程序中使用更多。按出现次数对它们进行排序,您将获得最常出现的单词。

在这里实现。它不处理您可能想要的诸如postsbeing之类的情况。post您可以查看 Rails 如何实现String#singular此行为。

如果您想找到更有趣的常用短语,您可能必须使用某种自然语言处理,正如@sawa 在评论中指出的那样。我想不出一个足够快的解决方案。

于 2013-05-27T22:16:12.963 回答