我正在设计一个数据仓库系统,原始数据源有两个:文件(十六进制格式,记录结构已知)和PostgreSQL数据库。ETL 阶段必须读取两个源(文件和数据库)的内容并组合/集成/清理它们。在此之后,将数据加载到 DW 中。
为此目的,是更好的工具(例如 Talend)还是临时解决方案(使用编程语言编写临时例程)?
我正在设计一个数据仓库系统,原始数据源有两个:文件(十六进制格式,记录结构已知)和PostgreSQL数据库。ETL 阶段必须读取两个源(文件和数据库)的内容并组合/集成/清理它们。在此之后,将数据加载到 DW 中。
为此目的,是更好的工具(例如 Talend)还是临时解决方案(使用编程语言编写临时例程)?
我建议您使用Bulk Loader将您的平面文件放入 DB。这允许您自定义加载规则,然后使用常规 SQL 处理/清理结果数据集(无需编写其他自定义代码)