对于通过 pyspark 的 Spark 数据帧,我们可以使用pyspark.sql.functions.udf
创建一个user defined function (UDF)
.
我想知道我是否可以使用 Python 包中的任何函数udf()
,例如np.random.normal
numpy 中的函数?
对于通过 pyspark 的 Spark 数据帧,我们可以使用pyspark.sql.functions.udf
创建一个user defined function (UDF)
.
我想知道我是否可以使用 Python 包中的任何函数udf()
,例如np.random.normal
numpy 中的函数?
假设您要添加一个名为通过重复调用构造的new
DataFrame的列,您可以执行以下操作:df
numpy.random.normal
import numpy
from pyspark.sql.functions import UserDefinedFunction
from pyspark.sql.types import DoubleType
udf = UserDefinedFunction(numpy.random.normal, DoubleType())
df_with_new_column = df.withColumn('new', udf())