map - mapreduce 中的 job.get() 和 job.getBoolean() 是什么

Question

我正在研究通过hadoop进行pdf文档聚类，所以我通过阅读互联网上的一些示例来学习mapreduce。在wordcount示例中有行

job.get("map.input.file")
job.getboolean()

这些函数的功能是什么？map.input.file到底是什么，它在哪里设置？还是只是输入文件夹的名称？如果有人知道，请发布答案。

有关代码，请参见以下链接 wordcount 2.0 example= http://hadoop.apache.org/docs/r1.0.4/mapred_tutorial.html

score 1 · Accepted Answer

这些是作业配置。即传递给每个映射器和reducer 的配置集。现在，这些配置包括定义良好的 mapreduce/hadoop 相关配置以及用户定义的配置。

在您的情况下，map.input.file是一个预定义的配置，是的，它被设置为您设置为输入路径的所有路径的逗号分隔列表。

Whilewordcount.skip.patterns是根据用户输入设置的自定义配置，您可能会看到此配置设置run()如下：

conf.setBoolean("wordcount.skip.patterns", true);

至于何时使用get和何时使用getBoolean，应该是不言自明的，因为每当您想设置布尔类型的值时，您将使用getBoolean并setBoolean分别获取和设置特定的配置值。同样，您也有其他数据类型的特定方法。如果它是字符串，那么您可以使用get().

1 回答 1