13

我目前分别在MongoDBApache Cassandra的几个项目中工作。我也经常使用 Solr,我正在用它们处理“大量”数据(大约 1-2TB)。上周我第一次听说了GreenplumVertica,但我不太确定将它们放在我脑海中的哪个位置。在我看来,它们就像 Dataware House (DWH) 解决方案,而我并没有真正使用过 DWH。而且它们似乎要花费很多钱(例如,Greenplum 中的 1TB 存储需要 6 万美元)。我目前没有处理 PB 的数据并且我认为不会这样做,但是像 cassandra 这样的产品似乎也能够处理这个

在轻松扩展到 TB 或 PB 数据方面,Cassandra 是公认的 NoSQL 领导者。

通过http://www.datastax.com/why-cassandra

所以我的问题是:人们为什么要使用 Greenplum & Co?与这些其他产品相比,是否有巨大的优势?

谢谢。

4

6 回答 6

42

Cassandra、Greenplum 和 Vertica 都处理大量数据,但方式却截然不同。

一些组成了每个数据库都有其优势的用例:

将 cassandra 用于:

tweets.insert(key:user, data:blob);
tweets.get(key:user)

将 greenplum 用于:

begin;
update account set balance = balance - 10 where account_id = 1;
update account set balance = balance + 10 where account_id = 2;
commit;

将 Vertica 用于:

select sum(balance)
over (partition by region order by account rows unbounded preceding)
from transactions;
于 2012-02-17T23:40:01.847 回答
13

我在电信行业工作。我们处理大型数据集和复杂的 EDW(企业数据仓库)模型。我们从 Teradata 开始,几年都很好。然后数据呈指数级增长,正如您所知,在 Teradata 中进行扩展非常昂贵。因此,我们评估了 EMC,即 green plum、oracle exadata、hp Vertica 和 IBM netteza。

在速度上,生成 20 个报告是这样的:1. Vertica,2. Netteza,3. green plum,4. oracle

在压缩比方面:Vertica 具有天然优势。其中,IBM 也不错。根据基准,最差的是 emc 和 oracle。正如预期的那样,它俩都想出售大量的存储和硬件。

可扩展性:都可以很好地扩展。

加载时间:这里 emc 最好,其他(teradata、Vertica、oracle、IBM)也不错。

并发用户查询:Vertica、emc、青梅,当时只有IBM。Oracle exadata 在任何类型的查询案例中都比较慢,但比它的老派 10g 好得多。

价格:Teradata > Oracle > IBM > HP > EMC

注意:需要比较苹果和苹果,相同的核心数、内存、数据量和报告

我们选择 Vertica 是因为硬件独立定价模式,定价较低且性能良好。现在,所有 40 多位用户都乐于生成报告而无需等待,并且它们都适合低成本的 hp dl380 服务器。它非常适合 olap /edw 用例。

所有这些分析仅适用于 edw/analytics/olap 案例。对于任何硬件或系统上的所有 oltp、丰富的 plsql、连接等,我仍然是 Oracle 的粉丝。Exadata 提供了不错的混合工作负载,但性价比不合理,并且仍然需要将 10g 代码迁移到 exadata 最佳实践(类似于 MMP、批量处理等),而且它比他们声称的要耗时。

于 2012-11-07T02:30:50.040 回答
7

我们在 Hadoop 中工作了 4 年,在 Vertica 中工作了 2 年。我们在 MySQL 中的表存在大量加载和索引问题。我们在使用我们自己开发的分片解决方案时大吃一惊。我们本可以投入巨资开发更复杂的分片解决方案,这将是非常痛苦的,imo。我们本可以更加仔细地思考我们绝对需要在 SQL 数据库中保留哪些数据。

但最终,我们选择了从 MySQL 切换到 Vertica。Vertica 的性能模式与 MySQL 的完全不同,后者有其自身的问题。但它可以非常快速地加载大量数据,并且擅长于让 MySQL 头晕目眩的繁重查询。

在我看来,Vertica 是一个解决方案,当您已经投资于 SQL 并需要更重的 SQL 数据库时。我不是专家,因此我无法告诉您与 Vertica 相比,向 Oracle 或 DB2 的过渡会是什么样子,无论是在集成工作量还是货币成本方面。

Vertica 提供了许多我们几乎没有研究过的功能。这些可能对其他用例与我们不同的人非常有吸引力。

于 2012-01-25T02:22:49.730 回答
6

我是 Vertica DBA,在此之前是 Vertica 的开发人员。Michael Stonebreaker(Ingres、Vertica 和其他数据库背后的人)对 NoSQL 的一些批评值得一听。

基本上,以下是我所看到的 Vertica 的优势:

  • 它在大量数据上相当快
  • 它的性能类似于(所以我可以收集)其他数据仓库解决方案,但它的优势是集群和商品硬件。因此,您可以通过添加更多商品硬件来进行扩展。就每 TB 的总成本而言,它看起来很便宜。(根据记忆而不是确切的报价。)
  • 同样,它用于数据仓库。
  • 您可以使用传统的 SQL 和表。它在引擎盖下是不同的。

我不能与其他产品交谈,但我相信它们中的很多也很好。

编辑:这是 Stonebreaker 的演讲:http ://www.slideshare.net/Dataversity/newsql-vs-nosql-for-new-oltp-michael-stonebraker-voltdb

于 2012-01-25T15:36:13.750 回答
3

Pivotal(前身为 Greenplum)是从 EMC、VMware 和 GE 分拆出来的资金充足的公司。Pivotal 的市场是拥有需要复杂分析和高速 ETL 的多 PB 大小数据库的企业(和国土网络安全机构)。Greenplum 的起源是为 Map Reduced MPP 重新设计的 PostgreSQL 数据库,后来添加了柱状支持和 HDFS。它结合了 SQL + NoSQL 的优点,使 NewSQL。

特征:

  • 在 2015 年上半年,他们的大部分代码,包括 Greenplum DB 和 HAWQ,都将开源。堆栈顶部的一些高级管理和性能功能将保持专有。
  • MPP(大规模并行处理)无共享 RDBMS 数据库,专为多 TB 到多 PB 环境而设计。
  • 完全符合 SQL 标准 - 支持所有版本的 SQL:'92、'99、2003 OLAP 等。与 PostgreSQL 8.2 100% 兼容。• 只有 SQL over HADOOP 能够处理 TPC-DS 基准标准使用的所有 99 个查询而无需重写。竞争不能做很多,而且速度要慢得多。西格蒙白皮书。
  • 酸合规性。
  • 支持存储在 HDFS、Hive、HBase、Avro、ProtoBuf、分隔文本和序列文件中的数据。
  • Solr/Lucene 集成,用于嵌入在 SQL 中的多语言全文搜索。
  • 包含开源软件:Spring、Cloud Foundry、Redis.io、RabbitMQ、Grails、Groovy、Open Chorus、Pig、ZooKeeper、Mahout、MADlib、MapR。其中一些在 EBSCO 使用。
  • 与 HBase 的本机连接,这是一种流行的 Hadoop 类列存储技术。
  • VMware 对 MongoDB 的 1.5 亿美元投资可能会导致 PB 级 XML 文件的集成。
  • 分配键的逐表规范允许您设计表模式以利用节点本地连接和分组依据,但即使没有这个也将执行。
  • 面向行和/或列的数据存储。它是唯一一个表可以具有 DBA 定义的基于列和基于行的分区的多态的数据库。
  • 列存储表的每列可以有不同的压缩算法,因为不同的数据类型有不同的压缩特性来优化它们的存储。
  • 高级 Map-Reduce 类 CBO 查询优化器——查询可以在数十万个节点上运行。
  • 它是唯一具有用于查询处理的动态分布式管道执行模型的数据库。虽然较旧的数据库依赖于物化执行,但 Greenplum 不必在每个中间查询步骤中都将数据写入磁盘。它将数据流式传输到内存中查询计划的下一阶段,并且永远不必将数据具体化到磁盘,因此它比任何人在 Hadoop 上演示的要快得多。
  • 对大型数据集的复杂查询可以在几秒甚至亚秒内解决。
  • 数据管理——提供表统计、表安全。
  • 深度分析——包括使用 MADlib 的数据挖掘或机器学习算法。使用 GPText 的深度语义文本分析。
  • 图形分析 - 使用 GraphLab 的十亿边分布式内存图形数据库和算法。
  • 将 SQL、Solr 索引、GPText、MADlib 和 GraphLab 集成在单个查询中,用于大规模句法解析和用于深度搜索分析的图/矩阵亲和性分析。
  • 完全兼容 ODBC/JDBC。
  • 分布式 ETL 速率为 16 TB/小时!!可与 Talend 集成。
  • 云支持:Pivotal 计划打包其 Cloud Foundry 软件,以便它也可以用于在其他云上托管 Pivotal,包括 Amazon Web Services 的 EC2。Pivotal 数据管理将可用于各种云设置,并且不依赖于专有的 VMware 系统。将针对 OpenStack、vSphere、vCloud Director 或自有品牌。IBM 宣布其 PaaS 已在 Cloud Foundry 上实现标准化。汇合页面。
  • 两种硬件“设备”产品:Isilon NAS 和 Greenplum DCA。
于 2015-04-16T21:49:14.510 回答
2

关于何时使用 MySQL 或 Oracle 等行数据库或 Infobright 或 Vertica 等列式数据库或 NoSQL 变体或 Hadoop,存在很多混淆。我们编写了一份白皮书,试图帮助找出最适合哪些用例的技术 - 您可以下载Emerging Database Landscape(向下滚动)或观看关于同一主题的点播网络研讨会

希望对你有用

于 2012-01-25T19:28:52.413 回答