我刚开始使用 Hadoop 并编写一些 Map Reduce 作业。我正在寻求有关在 python 中编写 MR 工作的帮助,该工作允许我接收一些电子邮件并将它们放入 HDFS,以便我可以搜索电子邮件的文本或附件?
谢谢!
对于处理电子邮件,email
stdlib 中的模块可能会很方便。对于 Hadoop 方面,使用 Python 和 Hadoop可能会很方便,尽管有很多 Google 搜索结果可供选择。
Yea, you need to use hadoop streaming if you want to use write Python code for running MapReduce Jobs