2

我现在正在学习 Mapreduce 和 Hadoop。我知道我可以在单个节点上进行一些测试并运行一些样本。但是我真的很想在真正的分布式环境上做一些练习。所以我想问:有没有网站可以提供分布式环境让我做一些实验?

有人告诉我,我可以使用 Amazon Web 服务来构建分布式环境。这是真的吗?有人有这样的经历吗?

我想知道你们在工作中使用 hadoop 之前是如何学习它的?

谢谢!

4

4 回答 4

5

有几个选项:

  • 如果您只是想了解 Map/Reduce 范例,我建议您看一下JSMapReduce。这是直接嵌入在浏览器中的,您无需安装任何东西,您可以创建真正的 Map/Reduce 程序。
  • 如果你想专门了解 Hadoop,亚马逊有一个叫做Elastic Map Reduce的东西,它本质上是在 AWS 上运行的 Hadoop,所以这使你能够编写你的 Hadoop 作业,决定你想要在你的集群中有多少台机器,你需要哪种类型的机器想要,然后运行它,EMR 会做所有事情,为您引导机器,运行您的工作并将结果存储在 S3 上。我建议查看本教程以了解如何在 EMR 上设置工作。请记住,EMR不是免费的,因此您必须为计算资源付费。

或者,如果您不想支付 EMR 的成本,您可以始终在本地计算机上以非分布式模式设置 Hadoop,并对其进行试验,如此所述。即使是单节点设置,抽象也将与您使用大型集群相同,因此这是加快速度的好方法,然后在您想认真对待时继续使用 EMR 或真正的集群。

于 2013-05-21T06:19:31.740 回答
1

亚马逊提供免费套餐,因此您可以启动一些虚拟机并尝试以这种方式进行试验。他们拥有的微型实例不是很强大,但适合小规模测试。

如果它足够强大,您还可以在桌面上启动虚拟机。我自己使用VMPlayer完成了这项工作。你可以免费安装任何你喜欢的 Linux 风格。 Ubuntu很容易上手。为 VM 设置网络时,请务必使用桥接网络。这样,每个虚拟机都将在您的网络上获得自己的 IP 地址,以便它们可以相互通信。

于 2013-05-24T08:41:58.613 回答
0

好吧,它可能不是关于“100% 在线”,但应该提供一些细节的非常好的选择。

如果您还没有准备好支付在线集群资源(例如这里提到的 EMR 解决方案),并且您不喜欢构建自己的集群但对单节点设置不满意,您可以尝试构建足够强大的虚拟集群桌面。

  • 你需要最少 3 个 VM,我更喜欢 Ubuntu。4更好。要查看真正的 Hadoop,您需要最小的复制因子 3。因此,您需要 3 个数据节点、3 个任务跟踪器。好吧,您还需要 nameNode / JobTracker - 它可能是用于 dataNode 的节点之一,但我建议使用单独的 VM。例如,如果您需要 HBase,则再次需要 1 个 Master 和至少 3 个 RegionServer。所以,再次,您需要 3 个但更好的 4 个 VM,

  • 有相当不错的免费产品 Cloudera CDH,它是“有点商业化”的 Hadoop 发行版。他们还有带有 GUI 和简化安装的管理器。顺便说一句,他们甚至准备了演示虚拟机,但我从未使用过它们。你可以在这里下载所有东西。他们还提供大量有关 Hadoop 及其环境的资料。

如果您有空闲,在桌面上使用虚拟机的完全免费解决方案和 EMR 等付费服务之间的替代方案是您的虚拟集群构建在一台专用服务器之上。这是我个人所做的。一台由 VmWare 免费解决方案提供支持的物理服务器、4 个虚拟机、1 个用于操作系统的 SSD 和 3 个用于存储的“通用”硬盘。每个 VM 都运行 Ubuntu 11.04(同样免费)。Cloudera 管理器免费版,CDH。所以一切都是免费的,但你需要一些通常作为备用的硬件。你有操场。好的,您需要投入时间,但在我看来,您将从这种方法中获得最丰富的经验。

于 2013-05-22T21:42:19.423 回答
0

虽然我不太了解,但另一个选择可能是 Greenplum 的分析工作台(1000 节点集群 w/Hadoop 用于测试):http ://www.greenplum.com/solutions/analytics-workbench

于 2013-05-22T22:30:13.080 回答