0

我正在研究通过hadoop进行pdf文档聚类,所以我通过阅读互联网上的一些示例来学习mapreduce。在wordcount示例中有行

job.get("map.input.file")
job.getboolean()

这些函数的功能是什么?map.input.file到底是什么,它在哪里设置?还是只是输入文件夹的名称?如果有人知道,请发布答案。

有关代码,请参见以下链接 wordcount 2.0 example= http://hadoop.apache.org/docs/r1.0.4/mapred_tutorial.html

4

1 回答 1

1

这些是作业配置。即传递给每个映射器和reducer 的配置集。现在,这些配置包括定义良好的 mapreduce/hadoop 相关配置以及用户定义的配置。

在您的情况下,map.input.file是一个预定义的配置,是的,它被设置为您设置为输入路径的所有路径的逗号分隔列表。

Whilewordcount.skip.patterns是根据用户输入设置的自定义配置,您可能会看到此配置设置run()如下:

conf.setBoolean("wordcount.skip.patterns", true);

至于何时使用get和何时使用getBoolean,应该是不言自明的,因为每当您想设置布尔类型的值时,您将使用getBooleansetBoolean分别获取和设置特定的配置值。同样,您也有其他数据类型的特定方法。如果它是字符串,那么您可以使用get().

于 2013-04-01T11:17:05.830 回答