1

我正在寻找使用 apache 梁来做以下事情。
专门针对张量流神经网络的预处理。

  • 对于文件夹中的每个文件。
    • 对于文件中的每一行
      • 处理线到一维浮点列表

我需要每个返回是每个文件的二维浮点列表。

我想我可以通过创建嵌套管道来实现这一点。
我可以在另一个管道的 ParDo 内创建并运行一个管道。

这似乎效率低下,但我的问题似乎是一个非常标准的用例。

  • 有没有工具可以在 apache Beam 中做得更好?
  • 有没有办法重组我的问题以使其在 apache Beam 中更好地工作?
  • 嵌套管道没有我想象的那么糟糕吗?

谢谢

4

1 回答 1

1

Apache Beam 是使用 Tensorflow 为机器学习预处理数据的绝佳工具。有关此一般用例tf.Transform的更多信息,请参阅这篇文章

没有任何描述似乎表明需要“嵌套管道”。处理目录中每个文件的每一行是一个简单的TextIO.Read转换。目前还不清楚从现在开始您的要求是什么,但一般来说,将行分隔为浮点数并与其他行连接是简单的 ParDo 和分组操作。

作为一般指导,我会避免嵌套管道,并尝试分解问题以适应单个管道。

于 2017-04-24T06:16:46.733 回答