我被要求使用 Data Stage ETL 减少现有数据模型。这更像是一种练习,也是一种了解这个我非常陌生的程序的方式。
当然,数据应该按照一些功能规则进行缩减。
Table : MEMBERSHIP (..,A,B,C) # 其中 A,B,C 是不同的属性(我们的过滤器)
将数据从约 700k 行减少到 7k 行左右。
我正在考虑保持与数据源相同的百分比。因此,如果我们有 70% 的 A、20% 的 B 和 10% 的 C,我们在缩减版上的百分比几乎相同。
我正在寻找最好的方法和使用的内部工具(也许与聚合器阶段?)。有没有办法用 DataStage 做一些类似于 PL 的脚本?我希望我已经足够清楚了。如果您有任何建议,我将不胜感激。
感谢大家。
~白兔