hadoop - 大数据分析技术选择

Question

我被要求评估我们可能需要用于解决下述问题的技术。可能的选项是 Hadoop、Hive 和 Pig。我对其中任何一个都没有太多经验。如果你能指出一个很好的阅读来源。我在谷歌上找到了大量的参考资料，但很难找到一步一步的解释或比较。

这是我需要解决的任务。

用户将句子输入系统。句子按单词分解并存储在 Cassandra 列族中。每行是一个单词（键），列名是输入此记录的时间戳，没有列值。

我需要能够查询数据库并从以下细分中提取 N 个单词：

a_1% 必须是从现在到过去的时间段 T1 的热门单词 a_2% 必须是从现在到过去的时间段 T2 的热门单词 a_3% 必须是从现在到过去的时间段 T3 的热门单词

a_n% 必须是从现在到过去的时间段 T_n 的顶部单词

a_1+a_2+...a_n = 100%

T1、T2 等是任意时间间隔。

任何关于我应该用于这项任务的技术选择的建议将不胜感激。我们正在使用 Cassandra，我们对它非常熟悉。现在我们需要决定在其之上放置哪种分析工具。

链接或细节将不胜感激。

score 2 · Accepted Answer

如果您在 HIVE 中对数据进行了分区（按时间间隔），则可以通过 HIVE 中的一个查询来找到这样的“热门词组合”句子。此外，HIVEQL sytnax 将来可能会帮助进行其他分析，尤其是对于了解 SQL 的人。问题是如何将 Cassandra 与 Hadoop 集成。我希望有人能说点什么。GL！
编辑：关于整合Cassandra 和 HIVE有很好的章节。

score 0 · Accepted Answer

对于大多数技术人员来说，大数据这个词并不是很陌生，尽管每个人都对它有些困惑。如果我们从外行的角度来解释这个术语，那么它意味着大量的结构化和非结构化数据。现在知道了大数据这个词的定义后，我们脑海中会出现一个非常常见的问题，我们如何才能获得这么多的数据？作为对这个问题的回答，我们可以说，我们通常在与朋友交流、进行一些数字交易或上网购物时产生数据。

大数据提供的哪些解决方案在几年前似乎是不可能的？

我们已经知道，信息、照片、文字、语音、视频等数据是大数据的基础，而大数据现在已经参与到很多帮助人类的项目中。

hadoop - 大数据分析技术选择

2 回答 2

Related

Reference