0

除了 Amazon MapReduce,我还有哪些其他选项可以处理大量数据?

4

5 回答 5

1

DataStax Brisk is good.

Full-on distributions

  1. Apache Hadoop
  2. Cloudera’s Distribution including Apache Hadoop (that’s the official name)
  3. IBM Distribution of Apache Hadoop
  4. DataStax Brisk
  5. Amazon Elastic MapReduce

HDFS alternatives

  1. Mapr
  2. Appistry CloudIQ Storage Hadoop Edition
  3. IBM Global Parallel File System (GPFS)
  4. CloudStore

Hadoop MapReduce alternatives

  1. Pervasive DataRush
  2. Cascading
  3. Hive (an Apache subproject, included in Cloudera’s distribution)
  4. Pig (a Yahoo-developed language, included in Cloudera’s distribution)

Refer : http://gigaom.com/cloud/as-big-data-takes-off-the-hadoop-wars-begin/

于 2012-06-12T07:28:33.867 回答
1

如果想使用机器集群实时处理大量数据(推特提要、来自网站的点击流)等,请查看最近从推特开源的“storm”

标准 Apache Hadoop 适合批量处理 PB 级数据,且延迟不是问题。

如上所述,来自 DataStax 的 Brisk 非常独特,因为您可以对实时数据使用 MapReduce 并行处理。

还有其他努力,例如 Hadoop Online,它允许使用管道进行处理。

Google BigQuery 显然是另一种选择,您可以在其中拥有 csv(分隔记录),并且无需任何设置即可切片和切块。它使用起来非常简单,但它是一项高级服务,您无需付费。处理的字节数(虽然前 100GB/月是免费的)。

于 2012-06-12T23:01:03.713 回答
1

Microsoft 还在 Windows Azure 上运行了 Hadoop/MapReduce,但它受 CTP 限制,但是您可以在以下链接中提供您的信息和 CTP 访问请求: https ://www.hadooponazure.com/ The Developer Preview for the Apache Hadoop-可通过邀请获得基于 Windows Azure 的服务。

除此之外,您还可以尝试使用 Google BigQuery,您必须先将数据移动到 Google 专有存储,然后在其上运行 BigQuery。请记住 BigQuery 基于 Dremel,它类似于 MapReduce,但由于基于列的搜索处理而速度更快。

还有另一种选择是使用 Mortar Data,因为他们使用了 python 和 pig,可以智能地轻松编写作业并将结果可视化。我觉得它很有趣,请看一下: http://mortardata.com/#!/ how_it_works

于 2012-04-18T15:36:41.613 回答
0

Google App Engine 也执行 MapReduce(至少现在是地图部分)。http://code.google.com/p/appengine-mapreduce/

于 2011-02-25T23:45:17.053 回答
0

如果您想留在云中,您还可以启动 EC2 实例来创建永久 Hadoop 集群。Cloudera 有很多关于在这里设置这样一个集群的资源。

但是,此选项的成本效益低于 Amazon Elastic Mapreduce,除非您一天中有大量作业要运行,从而使您的集群相当繁忙。

另一种选择是构建您自己的集群。Hadoop 的一大优点是您可以将异构硬件拼凑到具有良好计算能力的集群中。可以放在服务器机房机架中的那种。考虑到现有的旧硬件已经付费,让这样的集群运行的唯一成本是新驱动器,也许还有足够的记忆棒来最大化这些盒子的容量。那么这种方法的成本效益比亚马逊要好得多。唯一需要注意的是,您是否有必要的带宽将所有数据定期拉入集群的 HDFS。

于 2011-02-25T22:40:54.527 回答