我正在用 Python 编写 MapReduce 作业,并且想使用一些第三个库,例如chardet
.
我知道我们可以使用选项-libjars=...
将它们包含在 java MapReduce 中。
但是如何在 Python MapReduce Job 中包含第三方库?
谢谢!
问题已经解决了zipimport
。
然后我 zipchardet
到 file module.mod
,并像这样使用:
importer = zipimport.zipimporter('module.mod')
chardet = importer.load_module('chardet')
添加-file module.mod
hadoop 流命令。
现在chardet
可以在脚本中使用。
更多详细信息见:如何在 Hadoop 流式作业中包含 python 包?