python - 用于 Spark 数据帧的 udf() 的 Python 包中的函数

Question

对于通过 pyspark 的 Spark 数据帧，我们可以使用pyspark.sql.functions.udf创建一个user defined function (UDF).

我想知道我是否可以使用 Python 包中的任何函数udf()，例如np.random.normalnumpy 中的函数？

score 13 · Accepted Answer

假设您要添加一个名为通过重复调用构造的newDataFrame的列，您可以执行以下操作：dfnumpy.random.normal

import numpy
from pyspark.sql.functions import UserDefinedFunction
from pyspark.sql.types import DoubleType

udf = UserDefinedFunction(numpy.random.normal, DoubleType())

df_with_new_column = df.withColumn('new', udf())

python - 用于 Spark 数据帧的 udf() 的 Python 包中的函数

1 回答 1

Related

Reference