我们计划将现有的应用程序迁移到 hadoop。我们目前正在使用许多查找表/文件作为参考。
在 hadoop 生态系统中存储此类表/文件的最佳选择应该是什么
1) 创建 hive/hbase 查找表是否需要单独的 mr 作业才能加入此查找文件?
2) HDFS 文件使用了参考查找
我们也应该对查找表的大小做出这个决定吗?
选择最佳选项取决于许多因素,例如数据的大小和性质、网络基础设施等。您可以考虑以下选项:
如果您要使用键值存储,我建议您研究Voldemort,它实际上是一个分布式哈希表。您可以通过一个简单的 Hadoop 作业(只读存储功能)填充其存储。
如果数据的大小很小,则可以使用分布式缓存。查找数据将被复制到执行所需的所有节点。
在使用数据库存储查找值时,请考虑映射器/缩减器将与数据库建立的连接数。