我被要求评估我们可能需要用于解决下述问题的技术。可能的选项是 Hadoop、Hive 和 Pig。我对其中任何一个都没有太多经验。如果你能指出一个很好的阅读来源。我在谷歌上找到了大量的参考资料,但很难找到一步一步的解释或比较。
这是我需要解决的任务。
用户将句子输入系统。句子按单词分解并存储在 Cassandra 列族中。每行是一个单词(键),列名是输入此记录的时间戳,没有列值。
我需要能够查询数据库并从以下细分中提取 N 个单词:
a_1% 必须是从现在到过去的时间段 T1 的热门单词 a_2% 必须是从现在到过去的时间段 T2 的热门单词 a_3% 必须是从现在到过去的时间段 T3 的热门单词
a_n% 必须是从现在到过去的时间段 T_n 的顶部单词
a_1+a_2+...a_n = 100%
T1、T2 等是任意时间间隔。
任何关于我应该用于这项任务的技术选择的建议将不胜感激。我们正在使用 Cassandra,我们对它非常熟悉。现在我们需要决定在其之上放置哪种分析工具。
链接或细节将不胜感激。