除了 Amazon MapReduce,我还有哪些其他选项可以处理大量数据?
5 回答
DataStax Brisk is good.
Full-on distributions
- Apache Hadoop
- Cloudera’s Distribution including Apache Hadoop (that’s the official name)
- IBM Distribution of Apache Hadoop
- DataStax Brisk
- Amazon Elastic MapReduce
HDFS alternatives
- Mapr
- Appistry CloudIQ Storage Hadoop Edition
- IBM Global Parallel File System (GPFS)
- CloudStore
Hadoop MapReduce alternatives
- Pervasive DataRush
- Cascading
- Hive (an Apache subproject, included in Cloudera’s distribution)
- Pig (a Yahoo-developed language, included in Cloudera’s distribution)
Refer : http://gigaom.com/cloud/as-big-data-takes-off-the-hadoop-wars-begin/
如果想使用机器集群实时处理大量数据(推特提要、来自网站的点击流)等,请查看最近从推特开源的“storm”
标准 Apache Hadoop 适合批量处理 PB 级数据,且延迟不是问题。
如上所述,来自 DataStax 的 Brisk 非常独特,因为您可以对实时数据使用 MapReduce 并行处理。
还有其他努力,例如 Hadoop Online,它允许使用管道进行处理。
Google BigQuery 显然是另一种选择,您可以在其中拥有 csv(分隔记录),并且无需任何设置即可切片和切块。它使用起来非常简单,但它是一项高级服务,您无需付费。处理的字节数(虽然前 100GB/月是免费的)。
Microsoft 还在 Windows Azure 上运行了 Hadoop/MapReduce,但它受 CTP 限制,但是您可以在以下链接中提供您的信息和 CTP 访问请求: https ://www.hadooponazure.com/ The Developer Preview for the Apache Hadoop-可通过邀请获得基于 Windows Azure 的服务。
除此之外,您还可以尝试使用 Google BigQuery,您必须先将数据移动到 Google 专有存储,然后在其上运行 BigQuery。请记住 BigQuery 基于 Dremel,它类似于 MapReduce,但由于基于列的搜索处理而速度更快。
还有另一种选择是使用 Mortar Data,因为他们使用了 python 和 pig,可以智能地轻松编写作业并将结果可视化。我觉得它很有趣,请看一下: http://mortardata.com/#!/ how_it_works
Google App Engine 也执行 MapReduce(至少现在是地图部分)。http://code.google.com/p/appengine-mapreduce/
如果您想留在云中,您还可以启动 EC2 实例来创建永久 Hadoop 集群。Cloudera 有很多关于在这里设置这样一个集群的资源。
但是,此选项的成本效益低于 Amazon Elastic Mapreduce,除非您一天中有大量作业要运行,从而使您的集群相当繁忙。
另一种选择是构建您自己的集群。Hadoop 的一大优点是您可以将异构硬件拼凑到具有良好计算能力的集群中。可以放在服务器机房机架中的那种。考虑到现有的旧硬件已经付费,让这样的集群运行的唯一成本是新驱动器,也许还有足够的记忆棒来最大化这些盒子的容量。那么这种方法的成本效益比亚马逊要好得多。唯一需要注意的是,您是否有必要的带宽将所有数据定期拉入集群的 HDFS。