我正在使用 pandas_udf 在我的 spark 集群上应用机器学习模型,并且有兴趣预定义通过箭头发送到 UDF 的最小记录数。
我遵循了大部分UDF的databricks教程...... https://docs.databricks.com/applications/deep-learning/inference/resnet-model-inference-tensorflow.html
在教程中,我将 spark 会议设置为具有最大批量大小并启用箭头。我可以轻松设置最大批量大小,但是我想知道是否有类似的方法来设置 UDF 将处理的最小批量大小?
spark = SparkSession.builder.appName('App').getOrCreate()
spark.conf.set("spark.sql.execution.arrow.enabled", "true")
spark.conf.set('spark.sql.execution.arrow.maxRecordsPerBatch', PyArrowBatchSize)
我正在运行 spark 版本 2.4.3 和 python 3.6.0。