你会怎么做?Databricks 4.1、Spark 2.3
您将获得一个两列数据框:1) '<code>dt',字符串,如图所示。2) '<code>tm' 字符串,如图所示。我为这篇文章添加了第三列。
你的工作是创建第 3 列,“<code>dtm”、时间戳、格式、前导零、精度和时区不如正确组合“<code>dt”和“<code>tm”的 id 重要。
我在这篇文章中使用了 PySpark,但我并没有与之结婚。
df1 = sqlContext.createDataFrame(
[
('2018-06-02T00:00:00','12:30:00 AM', '06-02-2018 00:30:00.000+0000')
,('2018-11-15T00:00:00','03:00:00 AM', '11-15-2018 03:00:00.000+0000')
,('2018-06-02T00:00:00','10:30:00 AM', '06-02-2018 10:30:00.000+0000')
,('2018-06-02T00:00:00','12:30:00 PM', '06-02-2018 12:30:00.000+0000')
,('2018-11-15T00:00:00','03:00:00 PM', '11-15-2018 15:00:00.000+0000')
,('2018-06-02T00:00:00','10:30:00 PM', '06-02-2018 22:30:00.000+0000')
]
,['dt', 'tm', 'desiredCalculatedResult']
)
我已经经历了几十个几十个例子和尝试,到目前为止我还没有找到最终可行的解决方案。