几个人(1、2、3 )讨论了在PySpark应用程序中使用 Scala UDF,通常是出于性能原因。我对相反的情况感兴趣 - 在 Scala Spark 项目中使用 python UDF。
我对使用 sklearn (和MLFlow)构建模型特别感兴趣,然后将其有效地应用于 Spark 流作业中的记录。我知道我还可以在 REST API 后面托管 python 模型,并在 Spark 流应用程序中调用该 APImapPartitions
,但是管理该任务的并发性并为托管模型设置 API 并不是我非常兴奋的事情.
如果没有像 Py4J 这样的太多自定义开发,这可能吗?这只是一个坏主意吗?
谢谢!