3

大数据 = 1TB,每年增长 10%。模型很简单。一张有 25 列的表。没有与其他表的连接..

我正在寻找对 25 列的子集进行简单的查询过滤..

我猜想在过滤列上有索引的传统 SQL 存储是必要的。Hadoop 是矫枉过正,没有意义,因为这是一个实时服务。蒙哥?像pentaho这样的双引擎?

有什么建议吗?

4

3 回答 3

3

似乎传统解决方案确实听起来不错,除非您描述的真正简单的模型不会有任何重大变化。

NoSQL 听起来不是 BI / Reporting 的最佳选择。

买个好硬件。花时间进行性能测试并构建所有必需的索引。实施适当的新数据上传策略。根据您的需要和性能测试在 PostgreSQL 中实现表级分区。

PS 如果我现在有机会从 ORACLE/DB2 切换,我肯定会选择 PostgreSQL。

于 2012-04-22T21:33:43.320 回答
1

我建议在这里调查 Infobright——它是基于列的和压缩的,所以你不会存储完整的 TB,有一个开源版本,所以你可以在不被一群销售人员打电话的情况下试用它(但上次我看起来 OSS 版本缺少一些非常有用的东西,所以你最终可能想要一个许可证)。上次我试了一下,它看起来像 MySQL 一样,所以不难集成。当我上次检查它时,它是面向单服务器的,并声称可以在单台服务器上处理高达 50TB 的容量。我认为如果你决定朝那个方向前进,Infobright 可以坐在 Pentaho 后面。

infobright 所做的事情是它非常接近无管理员 - 没有手动索引或索引维护。

于 2012-04-23T06:02:59.570 回答
0

听起来像列存储会有所帮助。取决于您如何处理插入,以及是否必须进行更新。但是,如果您要进行商业化,除了 infobright 之外,然后按矢量方式结帐,它更快且价格相似。

如果您想要免费/开源,请查看 Luciddb - 文档不多,但它非常擅长它的功能!

如果您想要令人难以置信的速度,请查看矢量。我相信它的价格与 infobright 差不多,但要快得多。

于 2012-04-26T11:52:17.123 回答