1

我想用一个简单的例子来实现 lambda 架构。我无法将我的技术堆栈融入 lambda 架构的每一层。

我想实时找出 twitter 推文中最受欢迎的 10 个主题标签。我列出了http://lambda-architecture.net/中每一层野兔的用途。

  • 所有进入系统的数据都被分派到批处理层和速度层进行处理。
  • 批处理层有两个功能:(i)管理主数据集(一组不可变的、仅附加的原始数据),以及(ii)预先计算批处理视图。
  • 服务层索引批处理视图,以便可以以低延迟、即席的方式查询它们。
  • 速度层补偿了对服务层更新的高延迟,并且只处理最近的数据。
  • 任何传入的查询都可以通过合并批处理视图和实时视图的结果来回答。

我可以用每一层解决我的问题的哪一部分。我正在使用 Apache Spark 和 Hadoop HDFS 技术堆栈。

4

1 回答 1

0

我相信这个链接会对你有所帮助。

http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/

只有在读取 twitter 数据并使用 Flume 将其移动到 HDFS 之后,才应该考虑使用 Spark Core 而不是使用 Hive。

于 2016-02-05T15:45:35.607 回答