我现在正在学习 Mapreduce 和 Hadoop。我知道我可以在单个节点上进行一些测试并运行一些样本。但是我真的很想在真正的分布式环境上做一些练习。所以我想问:有没有网站可以提供分布式环境让我做一些实验?
有人告诉我,我可以使用 Amazon Web 服务来构建分布式环境。这是真的吗?有人有这样的经历吗?
我想知道你们在工作中使用 hadoop 之前是如何学习它的?
谢谢!
我现在正在学习 Mapreduce 和 Hadoop。我知道我可以在单个节点上进行一些测试并运行一些样本。但是我真的很想在真正的分布式环境上做一些练习。所以我想问:有没有网站可以提供分布式环境让我做一些实验?
有人告诉我,我可以使用 Amazon Web 服务来构建分布式环境。这是真的吗?有人有这样的经历吗?
我想知道你们在工作中使用 hadoop 之前是如何学习它的?
谢谢!
有几个选项:
或者,如果您不想支付 EMR 的成本,您可以始终在本地计算机上以非分布式模式设置 Hadoop,并对其进行试验,如此处所述。即使是单节点设置,抽象也将与您使用大型集群相同,因此这是加快速度的好方法,然后在您想认真对待时继续使用 EMR 或真正的集群。
好吧,它可能不是关于“100% 在线”,但应该提供一些细节的非常好的选择。
如果您还没有准备好支付在线集群资源(例如这里提到的 EMR 解决方案),并且您不喜欢构建自己的集群但对单节点设置不满意,您可以尝试构建足够强大的虚拟集群桌面。
你需要最少 3 个 VM,我更喜欢 Ubuntu。4更好。要查看真正的 Hadoop,您需要最小的复制因子 3。因此,您需要 3 个数据节点、3 个任务跟踪器。好吧,您还需要 nameNode / JobTracker - 它可能是用于 dataNode 的节点之一,但我建议使用单独的 VM。例如,如果您需要 HBase,则再次需要 1 个 Master 和至少 3 个 RegionServer。所以,再次,您需要 3 个但更好的 4 个 VM,
有相当不错的免费产品 Cloudera CDH,它是“有点商业化”的 Hadoop 发行版。他们还有带有 GUI 和简化安装的管理器。顺便说一句,他们甚至准备了演示虚拟机,但我从未使用过它们。你可以在这里下载所有东西。他们还提供大量有关 Hadoop 及其环境的资料。
如果您有空闲,在桌面上使用虚拟机的完全免费解决方案和 EMR 等付费服务之间的替代方案是您的虚拟集群构建在一台专用服务器之上。这是我个人所做的。一台由 VmWare 免费解决方案提供支持的物理服务器、4 个虚拟机、1 个用于操作系统的 SSD 和 3 个用于存储的“通用”硬盘。每个 VM 都运行 Ubuntu 11.04(同样免费)。Cloudera 管理器免费版,CDH。所以一切都是免费的,但你需要一些通常作为备用的硬件。你有操场。好的,您需要投入时间,但在我看来,您将从这种方法中获得最丰富的经验。
虽然我不太了解,但另一个选择可能是 Greenplum 的分析工作台(1000 节点集群 w/Hadoop 用于测试):http ://www.greenplum.com/solutions/analytics-workbench