0

Pyspark 中是否有此 Pandas 功能的挂件?

pandasDataFrame.rolling('2s', min_periods=1).sum()

有问题的列有这样的时间戳

2013-01-01 09:00:00  0.0
2013-01-01 09:00:02  1.0
2013-01-01 09:00:05  3.0
:

(此处的文档:https ://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rolling.html )

4

1 回答 1

1

在 spark 中使用窗口函数。

from pyspark.sql import functions as F
df.withColumn(
    "window",
    F.window("tmst", "2 secondes")
)
于 2018-11-27T10:57:35.883 回答