如果在使用 Java 编写程序时使用 FileSplit 映射器类中的输入文件,我能够找到名称。
当我用 Python 编写程序(使用流式传输?)时,是否有相应的方法可以做到这一点?
我在 apache 上的 hadoop 流式文档中发现了以下内容:
请参阅配置的参数。在流式作业执行期间,“mapred”参数的名称被转换。点 (.) 变为下划线 (_)。例如,mapred.job.id 变为 mapred_job_id,mapred.jar 变为 mapred_jar。在您的代码中,使用带下划线的参数名称。
但我仍然无法理解如何在我的映射器中使用它。
非常感谢任何帮助。
谢谢