1

我正在用 Python 编写 MapReduce 作业,并且想使用一些第三个库,例如chardet.

我知道我们可以使用选项-libjars=...将它们包含在 java MapReduce 中。

但是如何在 Python MapReduce Job 中包含第三方库?

谢谢!

4

1 回答 1

1

问题已经解决了zipimport

然后我 zipchardet到 file module.mod,并像这样使用:

importer = zipimport.zipimporter('module.mod')
chardet = importer.load_module('chardet')

添加-file module.modhadoop 流命令。

现在chardet可以在脚本中使用。

更多详细信息见:如何在 Hadoop 流式作业中包含 python 包?

于 2013-03-12T08:01:23.330 回答