0

我有以下使用熊猫数据框的代码。但是,当我将 Pandas 数据框转换为 Koalas 并运行以下代码时,出现错误“函数示例当前不支持指定要返回的确切项目数。请改用 frac”

df.loc[df.sample(int(len(df) * .05)).index, 'distance'] = None

我尝试使用下面的代码给我随机记录。但是如何获取数据框中的所有记录并用空值替换 5% 记录的距离

df.sample(frac=0.05, random_state=1)

4

1 回答 1

0

如果您只想在距离列中保留 5% 的记录,则可以使用when随机rand数:

import pyspark.sql.functions as F

df2 = df.withColumn('distance', F.when(F.rand(0) < 0.05, F.col('distance')))

如果你想坚持使用考拉而不是 Spark,你可以这样做:

import numpy as np

df.loc[np.random.choice(df.shape[0], int(df.shape[0]*0.05)).tolist(), 'distance'] = None
于 2021-05-09T08:27:46.380 回答