1

我正在构建数据仓库(DW),我有一个关于加载数据的问题;如果你们提供您对此的想法,我将不胜感激。

我打算先将所有表一对一地加载到临时数据库中,然后将数据从临时数据库加载到 DW 中。我曾考虑过直接使用 OLTP 系统(无分段),但我不是 100% 确定从性能角度来看这将是最好的方法。

让我举个例子:在我们的 OLTP 数据库中,我们有一个名为“客户”的视图,我将把它拉入我们的 DW。OLTP 数据库的视图相当复杂,一个 select 语句需要 8 分钟。因此,如果我将此表直接加载到 DW 并进行增量加载,我认为这将比首先将视图加载到临时表中花费更多时间。此外,由于加载需要时间,DW 的可用性也会受到影响,因为数据将无法供用户查询。

你们有什么建议?分期方法现在过时了吗?我想了解优点和缺点。在此先感谢您的帮助

4

1 回答 1

1

我帮助维护数据仓库,虽然我们不使用暂存数据库,但我们确实使用暂存/工作/中间/whatever_you_want_to_call_it 表。

我们所做的事情的要点是这样的。我们以一系列分隔文件的形式接收原始数据。然后,我们对这些文件执行我们认为必要的任何操作来生成加载文件。然后,我们从加载文件中填充我们的工作表,并做我们必须做的任何事情来进一步准备数据。然后我们从工作表中填充真实表。

我们还按计划完成所有工作,在人们上班前的清晨,以尽量减少人们在加载数据时尝试查询仓库的可能性。

于 2013-02-03T01:07:23.093 回答