我有兴趣使用 Apache Flink 有效地将两个数据流压缩在一起(但同样的问题也可能适用于数据集)。
作为一个例子(使用Scala符号)我有
names: DataStream[String]
ages: DataStream[Int]
我想获得
combined: DataStream[(String, Int)]
连接是使用流内数据的位置隐式进行的(非正式地:)combined(i) = (names(i), ages(i))
。我可以通过向每个流添加一个“位置”字段然后使用位置作为键将它们连接在一起来获得这一点,但这非常低效。
有没有更好的方法来做到这一点?谢谢!