Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在构建一个使用 HBase (0.20.1) 作为数据源和数据接收器的 Hadoop (0.20.1) mapreduce 作业。我想用 Python 编写这份工作,这需要我使用 hadoop-0.20.1-streaming.jar 将数据流进出我的 Python 脚本。如果数据源/接收器是 HDFS 文件,这可以正常工作。
Hadoop 是否支持从/到 HBase 的流式传输以进行 mapreduce?
这似乎符合我的要求,但它不是 Hadoop 发行版的一部分。任何其他建议或意见仍然欢迎。
http://github.com/wanpark/hadoop-hbase-streaming