我正在使用DataSet
API 使用 Apache Flink 编写批处理作业。我可以使用读取文本文件,readTextFile()
但此功能一次只能读取一个文件。
如果可能的话,我希望能够一个一个地使用我目录中的所有文本文件并一个一个地同时处理它们,在与DataSet
API 批处理作业相同的功能中。
另一个选项是实现一个循环执行多个作业,每个文件一个,而不是一个作业,多个文件。但我认为这个解决方案不是最好的。
有什么建议吗?
我正在使用DataSet
API 使用 Apache Flink 编写批处理作业。我可以使用读取文本文件,readTextFile()
但此功能一次只能读取一个文件。
如果可能的话,我希望能够一个一个地使用我目录中的所有文本文件并一个一个地同时处理它们,在与DataSet
API 批处理作业相同的功能中。
另一个选项是实现一个循环执行多个作业,每个文件一个,而不是一个作业,多个文件。但我认为这个解决方案不是最好的。
有什么建议吗?
如果我的文档正确,您可以使用ExecutionEnvironment.readTextFile()
. 你可以在这里找到一个例子:Word-Count-Batch-Example
参考: