0

我们有 4 个数据源。2 个数据源是内部的,我们可以直接连接到数据库。对于第 3 个数据源,我们得到一个平面文件 (.csv),并且必须拉入数据。第 4 个数据源是外部的,我们无法直接访问它。

我们需要从所有 4 个数据源中提取数据,在它们上运行业务规则并将它们存储在我们的数据库中。我们有一个运行在该数据库之上的 Web 应用程序。此外,每个月我们都必须提取数据并对现有数据进行任何更新/删除/添加等操作。

我对这个过程几乎一无所知。也请你指点一些好书来研究这个主题。

这些是我正在考虑的当前方法。

  • 编写一个将与内部数据源对话并提取数据的内部 Web 服务。使用中间件创建外部数据源的处理程序(mqseries 已经在其他一些现有项目中为此设置,计划重用它)。再次使用从 csv 文件中提取数据爪哇。在这个数据上运行一些来自 Java 的业务规则。使用这个数据。这种方法可能会在我的开发箱中运行,但不确定 prod 中可能出现的所有问题(特别是由于同步)
  • 使用纯 java jdbc 连接从内部提取数据。对于其余 2 个获取平面文件,使用 sql loader 转储数据。所有数据首先进入临时表。通过 pl/sql 运行业务规则并使用。
  • 使用一些 ELT 工具(如 informatica)在 perl 中提取 data.write 业务规则(由 informatica 调用)

谢谢。

4

1 回答 1

2

Ralph Kimball所著的“ The Data Warehouse ETL Toolkit ”之类的书是学习技术/架构以将来自不同来源的数据集中到一个地方的好资源。

于 2009-11-05T16:33:37.430 回答