database - 任何可扩展的 OLAP 数据库（Web 应用程序规模）？

Question

我有一个应用程序需要对不同级别的聚合进行分析，这就是 OLAP 工作负载。我也想经常更新我的数据库。

例如，这是我的更新的样子（模式看起来像：时间、目标、源 ip、浏览器 -> 访问）

(15:00-1-2-2010, www.stackoverflow.com, 128.19.1.1, safari) -->  105

(15:00-1-2-2010, www.stackoverflow.com, 128.19.2.1, firefox) --> 110

...

(15:00-1-5-2010, www.cnn.com, 128.19.5.1, firefox) --> 110

然后我想问一下上个月从 Firefox 浏览器访问 www.stackoverflow.com 的总次数是多少。

我了解 Vertica 系统可以以相对便宜的方式做到这一点（性能和可扩展性方面，但可能不是成本方面）。我在这里有两个问题。

1) 有没有我可以构建的开源产品来解决这个问题？特别是，蒙德里安系统的工作情况如何？（可扩展性和性能） 2）是否有 HBase 或 Hypertable 基础解决方案（显然，裸 HBase/Hypertable 无法做到这一点）？-- 但是如果有一个基于 HBase/Hypertable 的项目，可扩展性可能不会成为 IMO 的问题）？

谢谢！

score 2 · Accepted Answer

您可以下载 greenplum 数据库的免费版（单节点版）。我自己没有尝试过，但我认为/猜它是一只强大的野兽。在这里阅读：http ://www.dbms2.com/2009/10/19/greenplum-free-single-node-edition/

另一个选择是 MongoDB，它快速且免费，您可以使用 JavaScript 编写 MapReduce 函数来进行分析。

我在这里的声誉很低，无法添加到 mongodb 的超链接，所以你必须谷歌。每个帖子我只能添加一个超链接。

score 2 · Accepted Answer

2

zomg项目旨在使用 Hadoop 和 HBase 解决这个问题。

于 2010-01-17T04:49:56.023 回答

score 2 · Accepted Answer

Facebook 还在 Hadoop 之上构建了 Hive。很容易上手 - 也是合理的查询 API。

http://mirror.facebook.net/facebook/hive/

score 0 · Accepted Answer

您的数据模型是否比这更复杂？如果不是，您最好为它编写自定义代码。然后，您可以真正将其调整为您的数据。真正的产品必须提供很大的灵活性，需要很多复杂性才能实现这一点，并因此受到速度的影响。

您的问题在一个方面不清楚：当您谈论可扩展性时，您的意思是什么？您是从大量站点收集数据但查询用户数量有限，还是您也有很多用户？这种情况导致了一个截然不同的模型。

database - 任何可扩展的 OLAP 数据库（Web 应用程序规模）？

4 回答 4

Related

Reference