我主要使用所谓的“大数据”工作;ETL 和分析部分。我经常面临的挑战之一就是找到一种“测试我的数据”的好方法。对于我的 mapreduce 和 ETL 脚本,我编写了可靠的单元测试覆盖率,但如果数据本身(来自多个应用程序系统)发生意外的底层变化,代码不一定会引发明显的错误,这会给我留下坏/更改的数据,我不知道。
是否有任何最佳实践可以帮助人们密切关注基础数据可能发生的变化/方式?
我们的技术堆栈是 AWS EMR、Hive、Postgres 和 Python。我们对引入像 Informatica 这样的大型 ETL 框架并不真正感兴趣。