什么是 Hadoop 最佳实践的网站,而不是我可以获得创建新项目和小示例的逐步过程的书籍。我找不到这样的网站,请分享。
问问题
1923 次
2 回答
1
雅虎开发人员在Apache Hadoop上有一篇很棒的文章:Best Practices and Anti-Patterns
于 2013-04-02T07:34:38.103 回答
0
Hadoop 不是一个单一的应用程序,而是一个分布式处理框架,由位于该框架顶部的多个应用程序使用。Pig、Hive、HBase、Cassandra 等是为特定要求设计的众多此类应用程序中的少数几个。所有这些应用程序都使用Hadoop框架,该框架主要由分布式文件系统(HDFS)和分布式处理(MapReduce)组成。
从技术上讲,当您拥有一个最低限度的 Hadoop 集群(仅限 HDFS + MapReduce)时,您可以开始编写基于 MapReduce 的应用程序(Java 或其他语言通过 Hadoop Streaming 支持)来处理一些数据。
你可以做的是首先从 Cloudera 或 Hortonworks 发行版下载一个预构建/配置的 Hadoop 虚拟映像,然后让它在你的机器上运行。之后开始学习用 Java 编写 MapReduce 作业并在您的虚拟机中运行。
这是下载 Cloudera Hadoop Distribution VM的 URL
这是学习编写最简单的字数统计工作的链接。
于 2013-04-02T22:26:07.057 回答