我尝试在 Apache Flink 中实现一种窗口函数。例如,我想取元素 1 - 5 并对它们做一些事情,然后我想取元素 6 - 10 等等。
目前我有一个数据集,其数据由 CSV 文件派生:
DataSet<Tuple2<Double, Double>> csvInput = env
.readCsvFile(csvpath)
.includeFields(usedFields)
.types(Double.class, Double.class);
现在我想要一个包含该数据集前 5 个元素的子集。我也许可以用first
-function 做到这一点:
DataSet<Tuple2<Double, Double>> subset1 = csvInput.first(5);
但是如何获得接下来的 5 个元素呢?有没有像函数一样的startAt
函数,我可以使用?例如这样的:
DataSet<Tuple2<Double, Double>> subset2 = csvInput.first(5).startAt(6);
我在 Apache Flink Java API 中没有找到任何东西。存档此文件的最佳方法是什么?