Hadoop的新手。从概念上讲,它很容易理解,然而,真正的挑战之一是如何对要在 map-reduce 架构中解决的问题进行建模。假设我的数据包含两部分(全部在 oracle 中): 1. 变化不大的静态数据 2. 每天收集的新鲜数据。
而目前的数据处理基本上是读取新鲜数据,找到并使用相应的静态数据(或元数据)并对其应用一些算法并将其转储回Oracle。
我如何为这样的应用程序范式建模?我是否将静态数据保存/存储为分布式缓存的一部分?如果数据很大怎么办?
基本上我正在寻找更多如下示例: http ://stevekrenzel.com/finding-friends-with-mapreduce
谢谢,