尽管我非常了解 map reduce 的概念,但我对 Hadoop 完全陌生。
大多数 Hadoop 教程都是从 WordCount 示例开始的。所以我写了一个简单的wordcount程序,效果很好。但后来我试图计算一个非常大的文档的字数。(超过 50GB)。
所以我对 Hadoop 专家的问题是,Hadoop 将如何处理大文件?它会将文件的副本传输到每个映射器还是会自动将其拆分为块并将这些块传输到映射器?
我对 MapReduce 的大部分经验是因为 CouchDB,其中 mapper 一次处理文档,但从我读到的有关 Hadoop 的内容中,我想知道它是否旨在处理多个小文件或几个大文件或两者兼而有之?