hadoop 流中是否有任何标准方法来处理类似于 DistributedCache(在 java MR 中)的依赖项
例如,我有一个 python 模块可用于所有地图任务。我怎样才能实现它?
hadoop 流中是否有任何标准方法来处理类似于 DistributedCache(在 java MR 中)的依赖项
例如,我有一个 python 模块可用于所有地图任务。我怎样才能实现它?
您可以使用 -file 参数来指定 python 模块:
见http://hadoop.apache.org/docs/r0.18.3/streaming.html
如果您有依赖模块等,您可以指定多个 -file 参数。