python - Hadoop Streaming - 模块依赖

Question

hadoop 流中是否有任何标准方法来处理类似于 DistributedCache（在 java MR 中）的依赖项

例如，我有一个 python 模块可用于所有地图任务。我怎样才能实现它？

score 0 · Accepted Answer

您可以使用 -file 参数来指定 python 模块：

如果您有依赖模块等，您可以指定多个 -file 参数。

1 回答 1