0

我被要求评估我们可能需要用于解决下述问题的技术。可能的选项是 Hadoop、Hive 和 Pig。我对其中任何一个都没有太多经验。如果你能指出一个很好的阅读来源。我在谷歌上找到了大量的参考资料,但很难找到一步一步的解释或比较。

这是我需要解决的任务。

用户将句子输入系统。句子按单词分解并存储在 Cassandra 列族中。每行是一个单词(键),列名是输入此记录的时间戳,没有列值。

我需要能够查询数据库并从以下细分中提取 N 个单词:

a_1% 必须是从现在到过去的时间段 T1 的热门单词 a_2% 必须是从现在到过去的时间段 T2 的热门单词 a_3% 必须是从现在到过去的时间段 T3 的热门单词

a_n% 必须是从现在到过去的时间段 T_n 的顶部单词

a_1+a_2+...a_n = 100%

T1、T2 等是任意时间间隔。

任何关于我应该用于这项任务的技术选择的建议将不胜感激。我们正在使用 Cassandra,我们对它非常熟悉。现在我们需要决定在其之上放置哪种分析工具。

链接或细节将不胜感激。

4

2 回答 2

2

如果您在 HIVE 中对数据进行了分区(按时间间隔),则可以通过 HIVE 中的一个查询来找到这样的“热门词组合”句子。此外,HIVEQL sytnax 将来可能会帮助进行其他分析,尤其是对于了解 SQL 的人。问题是如何将 Cassandra 与 Hadoop 集成。我希望有人能说点什么。GL!
编辑:关于整合Cassandra 和 HIVE有很好的章节。

于 2013-03-05T21:39:57.067 回答
0

对于大多数技术人员来说,大数据这个词并不是很陌生,尽管每个人都对它有些困惑。如果我们从外行的角度来解释这个术语,那么它意味着大量的结构化和非结构化数据。现在知道了大数据这个词的定义后,我们脑海中会出现一个非常常见的问题,我们如何才能获得这么多的数据?作为对这个问题的回答,我们可以说,我们通常在与朋友交流、进行一些数字交易或上网购物时产生数据。

大数据提供的哪些解决方案在几年前似乎是不可能的?

我们已经知道,信息、照片、文字、语音、视频等数据是大数据的基础,而大数据现在已经参与到很多帮助人类的项目中。

于 2017-04-05T06:38:06.770 回答