我有一个日常流程,它依赖于交付到文件系统上的“投递箱”目录的平面文件,这会将这个逗号分隔的(来自外部公司的 excel 等)数据加载到数据库中,一个零碎的 Perl/Bash 应用程序, 这个数据库被多个应用程序使用,也可以用一些 GUI 工具直接编辑。然后使用一些额外的 Perl 应用程序将一些数据复制到我主要使用的数据库中。
不用说,所有这些都是复杂且容易出错的,输入的数据有时会损坏,有时编辑会破坏它。我的用户经常抱怨丢失或不正确的数据。区分平面文件和数据库以分析流程中断的位置非常耗时,而且每天的数据变得越来越多,难以分析。
我计划修复或重写部分或全部数据传输过程。
在开始之前,我正在查看推荐阅读,有关如何编写健壮、抗故障和可自动恢复的 ETL 流程的网站和文章或其他建议将不胜感激。