5

这更像是一个架构问题,而不是技术问题。

我目前正在构建一个需要存储大量数据并使用该数据进行分析(消费者行为)的商业网站/社交网络。

我正在使用 Django 和 PostgreSQL 数据库。

现在我的问题是:我想扩展这个架构以包含一个数据仓库。理想情况是:操作数据库是当前的 Django PostgreSQL 数据库,而数据仓库是额外的,最好是多维模型。

我们仍处于非常早期的阶段,我们将使用 50 个用户进行测试,因此对于初学者来说,诸如单列表之类的原始内容就足够了。

我想知道是否有人在这种情况下有经验,这可以向我推荐一个创建数据仓库的框架,同时使用 Django 模型维护操作数据库以方便使用(如果可能的话)。

先感谢您!

4

2 回答 2

6

以下是我最近使用的一些很酷的开源工具:

  • Kettle - 很棒的 ETL 工具,您可以使用它来将操作数据库中的数据提取到您的仓库中。支持任何带有 JDBC 驱动程序的数据库,并使其非常容易构建,例如星型模式。
  • Saiku - 基于Pentaho Mondrian(MDX 实现)构建的漂亮 Web 2.0 前端。这使您的用户可以轻松地构建复杂的聚合查询(想想 Excel 中的数据透视表),并且 Mondrian 层提供缓存等以使事情快速进行。在此处尝试演示
于 2012-04-11T19:10:56.960 回答
0

我的回答不一定适用于数据仓库。在您的情况下,我看到了在OLTP 关系存储(在本例中是 PostgreSQL)旁边实现NoSQL数据库解决方案的可能性。

为什么要考虑NoSQL?除了明显的可扩展性优势之外,NoSQL 还提供了许多可能适用于您的场景的优势。例如,具有不同字段集的记录和基于键的访问的灵活性。

由于您仍处于“试用”阶段,您可能会发现根据您的托管服务提供商决定使用 NoSQL 数据库解决方案更容易。例如AWSSimpleDB谷歌 App Engine提供他们自己的DataStore等等。但是还有很多其他的 NoSQL 解决方案可以使用,它们有很好的 Python 绑定。

于 2012-04-10T15:34:57.233 回答