8

对于通过 pyspark 的 Spark 数据帧,我们可以使用pyspark.sql.functions.udf创建一个user defined function (UDF).

我想知道我是否可以使用 Python 包中的任何函数udf(),例如np.random.normalnumpy 中的函数?

4

1 回答 1

13

假设您要添加一个名为通过重复调用构造的newDataFrame的列,您可以执行以下操作:dfnumpy.random.normal

import numpy
from pyspark.sql.functions import UserDefinedFunction
from pyspark.sql.types import DoubleType

udf = UserDefinedFunction(numpy.random.normal, DoubleType())

df_with_new_column = df.withColumn('new', udf())
于 2015-04-14T12:43:48.303 回答