有人可以推荐好的解决方案(框架)来从Scala(或Java)应用程序访问HBase on Hadoop集群吗?
现在我正朝着烫伤的方向前进。我获得的原型允许我将烫伤库与Maven结合起来,并将烫伤作业 JAR 从“库”代码包中分离出来。这反过来又允许我从外部集群运行基于烫伤的 Hadoop 作业,每个作业的开销最小(“库”代码仅在它更改时才发布到集群“分布式缓存”(很少需要),因此我可以快速加载作业代码) .
现在我实际上开始使用 HBase 本身,我看到 scalding 很好,但它对 HBase 来说并不是那么“原生”。是的,有一些类似hbase-scalding的东西,但无论如何我都有一些计划未来的行动,我想知道我可能错过的其他好的解决方案。
预期:
- 应用程序(作业)的启动开销应该很低。我需要运行很多。
- 应该可以(更容易 - 更好)在没有任何 SSH 的情况下从外部集群运行作业(仅基于“hadoop jar”命令,甚至仅通过应用程序执行)。
- 乔布斯语言本身应该允许简短的逻辑语义。理想情况下,此代码应该足够简单,可以自动生成。
- 该解决方案在足够大的 HBase 表(最初最多 100.000.000 个条目)上应该是有效的。
- 好的,解决方案应该是“活的”(正在积极开发中),但在总体稳定性方面相对较好。
我认为这里的论证可能比解决方案本身更有用,这个问题应该为许多人增加一些想法。有什么平安的建议吗?