我们有一个 BI 客户,每月在他们的销售数据库表中生成大约 4000 万行,这些行是从他们的销售交易中生成的。他们想用他们 5 年的历史数据建立一个销售数据集市,这意味着这个事实表可能有大约 2.4 亿行。(40 x 12 个月 x 5 年)
这是结构良好的数据。
这是我第一次面对如此大量的数据,这让我分析了 Inrbright 等垂直数据库工具。但是使用这种软件,一个简单的查询仍然需要非常非常长的时间来运行。
这让我看了一下 Hadoop,但在阅读了一些文章后,我得出结论认为 Hadoop 不是创建事实表的最佳选择(即使使用 Hive),因为在我的理解中是用于处理非结构化数据。
所以,我的问题是:建立这个挑战的最佳方式是什么?,我不是在寻找合适的技术吗?在如此大的事实表中,我可以获得的最佳查询响应时间是多少?..或者我在这里面对一堵真正的墙,唯一的选择是建立聚合表?