1

我被要求使用 Data Stage ETL 减少现有数据模型。这更像是一种练习,也是一种了解这个我非常陌生的程序的方式。

当然,数据应该按照一些功能规则进行缩减。

Table : MEMBERSHIP (..,A,B,C) # 其中 A,B,C 是不同的属性(我们的过滤器)

将数据从约 700k 行减少到 7k 行左右。

我正在考虑保持与数据源相同的百分比。因此,如果我们有 70% 的 A、20% 的 B 和 10% 的 C,我们在缩减版上的百分比几乎相同。

我正在寻找最好的方法和使用的内部工具(也许与聚合器阶段?)。有没有办法用 DataStage 做一些类似于 PL 的脚本?我希望我已经足够清楚了。如果您有任何建议,我将不胜感激。

感谢大家。

~白兔

4

2 回答 2

0

Datastage 不进行百分比缩减

您可以做的是使用变压器阶段或过滤器阶段根据某些条件从源中过滤掉数据。但就像我说的,条件必须非常具体。(例如 - 仅选择具有 A = [somevalue] 或 A not= [somevalue] 的那些记录)

于 2015-03-17T15:30:21.673 回答
0

DataStage PX 具有示例阶段,可让您指定要对其采样的数据百分比:http: //datastage4you.blogspot.com/2014/01/sample-stage-in-datastage.html

于 2015-05-18T01:18:28.940 回答