3

举个简单的例子:

import datatable as dt
import pandas as pd
from datetime import datetime

d_t = dt.Frame(pd.DataFrame({"Date": ["04/05/2020", "04/06/2020"]}))

只有一个名为 Date 的列有两个 str32 类型的值。

如何将日期列转换为数据表框架中的日期格式。

我努力了

dates_list = [datetime.strptime(date, "%m/%d/%Y") for date in d_t["Date"].to_list()[0]]
d_t[:,"NewDate"] = dt.Frame(dates_list)
d_t["NewDate"].max()
# The code can run successfully so far.

但结果显示如下:

     NewDate
    ▪▪▪▪▪▪▪▪
  0     NA

我认为它仍然不是日期格式。

即使我查看了每列的类型,我仍然不知道:

d_t.stypes

[Out]: (stype.str32, stype.obj64)

有没有办法解决这个问题或任何替代方案?

谢谢回答。

4

1 回答 1

1

datatable 1.0引入了新的列类型datatable.Type.date32datatable.Type.time64.

在这种情况下,从字符串列Datedate32类型的转换如下:

d_t[:, dt.update(Date_date = 
             dt.time.ymd(dt.as_type(dt.str.slice(dt.f.Date, 6, 10), int), 
                         dt.as_type(dt.str.slice(dt.f.Date, 3, 5), int), 
                         dt.as_type(dt.str.slice(dt.f.Date, 0, 2), int)))]

d_t

    Date        Date_date
    ▪▪▪▪        ▪▪▪▪
0   04/05/2020  2020-05-04
1   04/06/2020  2020-06-04

虽然有点冗长,但它在数据表中执行所有操作,没有中间列表或熊猫帧的开销和惩罚。希望未来的版本将添加更多功能,datatable.time.ymd()以简化此类转换操作。

您是否选择了ISO 8601 标准来表示日期(即格式中的字符串%Y-%m-%d)然后转换为date32会相当简单:

d_t = dt.Frame({"Date": ["2020-04-05", "2020-04-06"]})
d_t[0] = dt.Type.date32
d_t.stypes

> (stype.date32,)
于 2021-07-18T20:24:12.153 回答