我正在使用 Hadoop 流来运行一些 Python 代码。我注意到,如果我的 Python 代码(例如在 mapper.py 中)出现错误,我将不会收到有关错误的通知。相反,映射器程序将无法运行,并且该作业将在几秒钟后被终止。查看日志,我看到的唯一错误是mapper.py运行失败或找不到,显然不是这样。
我的问题是,是否有一个特定的日志文件我可以检查以查看 mapper.py 代码中可能存在的实际错误?(例如,会告诉我导入命令是否失败)
谢谢!
编辑:使用的命令:
bin/hadoop jar contrib/streaming/hadoop-streaming.jar \ -file /hadoop/mapper.py -mapper /hadoop/mapper.py -file /hadoop/reducer.py -reducer /hadoop/reducer.py -input /hadoop/input.txt -output /hadoop/output
以及我希望看到错误的帖子: Hadoop and NLTK: Fails with stopwords