我是 Microsoft Windows 用户,并且是 Apache Hadoop 的新手。我发现的大多数 Hadoop 教程都是基于 Linux 的,所以我发现在 Windows 上学习 Hadoop 很困难。在 Windows 上学习 Hadoop 的任何指针都是最好的。
7 回答
如果您的主要目标是学习 Hadoop,那么在 Windows 或 Linux 上学习它并不重要,因为这两个平台上的一切都完全相同。我在这两个平台上都广泛使用了 Hadoop,发现所有命令和处理在 Windows 和 Linux 上都是相同的。所以这里是我的建议:
- 在您的 Windows 计算机上下载 VMware VMPlayer
- 下载适用于 VMware 的 CDH 虚拟机 https://ccp.cloudera.com/display/SUPPORT/Downloads
在您的 Windows 框中访问虚拟机,并按照它们在 Linux 上的教程进行操作。
您还可以尝试“Syncfusion BigData Studio”在本地机器上运行单节点集群以及安装所需的生态系统;此外, “Syncfusion BigData Platform”允许您以非常简单的方式管理集群,而无需从用户端进行任何手动配置;这 2 种设置是“100% 对所有人免费”;
要下载设置并了解更多信息,请参阅: http ://www.syncfusion.com/products/big-data
您也可以尝试 Amazon Elastic MapReduce,如果您没有任何 linux 经验,这会更有效。
我设法在 windows-7、cygwin-1.7、jdk1.7_x64 上移植了 Hadoop-1.0.1。
但它不适合初学者:您需要修补和重新编译 hadoop。
我在 Windows 上本地使用 Hadoop 作为在一台机器上运行的虚拟 2 节点集群。它在 Cygwin 中运行(所以没有 VM)。试用 Hadoop 效果很好,我仍然使用它来测试新代码,然后再将它放到集群上。您基本上可以获得与完整集群一样的所有功能。不过,让它工作可能有点棘手。
我使用了以下简短指南:Stanford Hadoop for Windows 指南
这对我来说很好。很重要的是你用的是0.20.0!更高版本不能在 Cygwin 下运行。我认为最好将默认节点的数量保留为 2。这样您可以测试在多个节点之间拆分工作是否有效,但更多的同时节点会给您带来内存问题。
在 Hadoop 2.2 的最新版本中,我看到发行说明提到该版本对在 Windows 上运行 Hadoop 进行了重大改进。我昨天下载了 Hadoop 2.2,我看到了很多 .cmd 文件和 .sh 文件,这确保了这个版本有用于在 Windows 环境中运行 Hadoop 的脚本和批处理文件。然而,在查看 Apache Hadoop 文档时,我找不到任何关于如何在 Windows 上安装和运行这个较新版本的分步说明。除此之外,看起来较新的版本中嵌入了 YARN 架构,并且在线一些教程中提供的旧配置可能已经过时并且不再适用。是否有任何适用于 Hadoop 2.2 的在线文档?我想要它专门用于在 Win 下运行 Hadoop
我在 Windows 上编译了 Hadoop,它作为zetabyte 的“Apache Hadoop for Windows”发布。有一个 core/common 包可用,还有一个带有 GNU 环境的包(bash 等)