我有一个带有几个连接的数据流,在进行连接 #5 时,行数从 10,000 变为 320,000(举例说明数量如何增加),但之后我有更多连接要做,因此数据流需要更长的时间才能完成。
我所做的是在连接之后添加一个聚合转换,对我稍后将使用的字段进行分组,以我在数据库查询中使用 SELECT DISTINCT 的方式使用它,但仍然需要很长时间才能完成。
如何让这个数据流运行得更快?
我应该在每个连接之间使用聚合(和 groupby 字段)以避免重复,还是在行开始增加的连接之后添加聚合(和 groupby 字段......)?
谢谢。