假设我想生成 100 万亿条数据(为了简单起见,使用随机数),我想使用 Google Dataflow 来完成。
我可以想到一个愚蠢的方法来做到这一点(我不是 100% 确定这会起作用,但这是我开始尝试的地方):获取一个 1000 万行长的文本文件,并且对于输入中的每一行文本文件有一个循环 1000 万次迭代的 DoFn,每次迭代输出一个随机生成的数字,最终都输出到一个文本文件。(原始文本文件中的任何内容都将被忽略)。
但我不禁想到,使用 Dataflow 生成数据可能有更好、更简单的方法。关于更好的方法来做到这一点的任何建议?
谢谢!