tf transform 对于特征处理很方便,但在没有分布式计算的情况下在大型数据集上运行效率不高。tf transform 在 beam 上运行,据我了解,它可以使用多个运行器,如 dataflow、spark runner 等,但我找不到任何关于在 spark 上运行 tf transform 的示例。我想知道目前是否支持它。
问问题
301 次
1 回答
0
我认为您目前还不能在 Spark 上运行 tf.transform。
tf.transform 在 Python 中,Beam 的 Spark 运行器仅支持 Java。AFAIK 只有 Google 的 Cloud Dataflow 运行器适用于 Python 和 tf.transform。有一篇文章提到了 PySpark,但不确定它是否适合。
Beam runner 正在进行开发,最进一步的可能是具有 Python SDK 的 Flink Runner,但它仍在开发中,支持和示例非常稀少。这是关于设置它的堆栈溢出帖子。
于 2019-04-17T19:12:43.450 回答