Apache Beam 文档Authoring I/O Transforms - Overview指出:
在 Beam 中读取和写入数据是一项并行任务,使用 ParDos、GroupByKeys 等通常就足够了。很少,您将需要更专业的 Source 和 Sink 类来实现特定功能。
有人可以提供一个非常基本的例子来说明如何在 Python 中做到这一点吗?
例如,如果我有一个包含 100 个 jpeg 图像的本地文件夹,我将如何:
- 使用 ParDos 读取/打开文件。
- 在图像上运行一些任意代码(也许将它们转换为灰度)。
- 使用 ParDos 将修改后的图像写入不同的本地文件夹。
谢谢,