5

我正在构建系统来分析有关证券交易价格的大量财务数据。鉴于数据将达到 10 兆兆字节,因此其中的一个大挑战是确定对数据使用哪种存储方法。将有许多对数据的查询,例如取平均值、计算标准差以及按价格、时间、交易量等多列过滤的总和。联接语句不是必需的,但如果有就好了。

现在,出于评估目的,我正在查看 infobright 社区版、monetdb 和 greenplum 社区版。到目前为止,它们看起来很棒,但对于更高级的功能,其中一些版本不提供其中的一些功能(使用多个服务器、插入/更新语句等)。

对于这种情况,您会使用什么解决方案,以及它比替代方案提供的好处?具有成本效益是一大优势。如果我必须为数据仓库解决方案付费,我会,但我宁愿避免它,如果可能的话,采用开源/社区版本的路线。

4

2 回答 2

1

我认为您提到的任何数据库都可以满足您的要求。如果您正在处理价值 10 TB 的数据,那么获得在 MPP 集群中运行的企业许可证可能会很好地利用资金来缩短处理时间。此外,如果这个 DW 将为您的组织进行重要的处理,那么拥有许可证意味着您可以从供应商那里获得支持,这对许多企业来说都很重要。YMMV。

一个更重要的问题是您的数据摄取率会是什么样子?对于金融系统,我认为等式的很大一部分应该是能够在继续进行正常处理的同时不断将新数据加载到系统中。

我只熟悉你的候选人名单中的 Greenplum,但我知道它在短时间内加载大量数据方面做得很好。GP 还有很多内置的统计和分析函数,您可以在 DB 中本地运行,包括内置 SQL 函数、MADLib、R 等。

于 2012-03-30T14:13:37.697 回答
1

Infobright 提供快速查询性能,无需对大量数据进行调整、预测和索引。在数据加载方面,我见过每小时可以加载 80TB 数据的实例,每秒插入超过 12,000 次。

它是如何工作的?

  1. 列方向与行方向
  2. 数据包加压缩平均为 20:1
  3. 知识网格 - 查询时的亚秒响应
  4. Granular Engine,建立在 mysql 架构之上

我仍然建议您考虑研究企业许可,但您当然可以评估社区版并针对它测试您的性能和数据加载需求。

免责声明:作者隶属于 Infobright。

于 2012-04-23T19:24:05.073 回答