0

hadoop 流中是否有任何标准方法来处理类似于 DistributedCache(在 java MR 中)的依赖项

例如,我有一个 python 模块可用于所有地图任务。我怎样才能实现它?

4

1 回答 1

0

您可以使用 -file 参数来指定 python 模块:

http://hadoop.apache.org/docs/r0.18.3/streaming.html

如果您有依赖模块等,您可以指定多个 -file 参数。

于 2013-07-11T18:28:13.390 回答