我有一个 python 模块,可以将数据直接加载到 numpy.ndarray 的字典中,以便在 pandas.Dataframe 中使用。但是,我注意到“NA”值存在问题。我的文件格式将 NA 值表示为 -9223372036854775808 (boost::integer_traits::const_min)。我的非 NA 值按预期(使用正确的值)加载到 pandas.Dataframe 中。我相信正在发生的事情是我的模块加载到 numpy.datetime64 ndarray 中,然后将其转换为 pandas.tslib.Timestamp 列表。这种转换似乎没有保留“const_min”整数。尝试以下操作:
>>> pandas.tslib.Timestamp(-9223372036854775808)
NaT
>>> pandas.tslib.Timestamp(numpy.datetime64(-9223372036854775808))
<Timestamp: 1969-12-31 15:58:10.448384>
这是熊猫错误吗?我想我可以让我的模块避免在这种情况下使用 numpy.ndarray,并使用 Pandas 不会触发的东西(也许预先分配 tslib.Timestamp 本身的列表。)
这是发生意外事情的另一个例子:
>>> npa = numpy.ndarray(1, dtype=numpy.datetime64)
>>> npa[0] = -9223372036854775808
>>> pandas.Series(npa)
0 NaT
>>> pandas.Series(npa)[0]
<Timestamp: 1969-12-31 15:58:10.448384>
在下面杰夫的评论之后,我有更多关于出了什么问题的信息。
>>> npa = numpy.ndarray(2, dtype=numpy.int64)
>>> npa[0] = -9223372036854775808
>>> npa[1] = 1326834000090451
>>> npa
array([-9223372036854775808, 1326834000090451])
>>> s_npa = pandas.Series(npa, dtype='M8[us]')
>>> s_npa
0 NaT
1 2012-01-17 21:00:00.090451
耶!该系列保留了 NA 和我的时间戳。但是,如果我尝试从该系列创建一个 DataFrame,则 NaT 会消失。
>>> pandas.DataFrame({'ts':s_npa})
ts
0 1969-12-31 15:58:10.448384
1 2012-01-17 21:00:00.090451
哼哼。一时兴起,我尝试将我的整数解释为过去纪元的纳秒。令我惊讶的是,DataFrame 工作正常:
s2_npa = pandas.Series(npa, dtype='M8[ns]')
>>> s2_npa
0 NaT
1 1970-01-16 08:33:54.000090451
>>> pandas.DataFrame({"ts":s2_npa})
ts
0 NaT
1 1970-01-16 08:33:54.000090451
当然,我的时间戳是不对的。我的观点是 pandas.DataFrame 在这里的行为不一致。为什么在使用 dtype='M8[ns]' 时保留 NaT,但在使用 'M8[us]' 时不保留?
我目前正在使用此解决方法来转换 ,这会减慢速度,但可以:
>>> s = pandas.Series([1000*ts if ts != -9223372036854775808 else ts for ts in npa], dtype='M8[ns]')
>>> pandas.DataFrame({'ts':s})
ts
0 NaT
1 2012-01-17 21:00:00.090451
(几个小时后……)
好的,我有进展了。我深入研究了代码,发现 Series 上的repr函数最终调用了“_format_datetime64”,它检查“isnull”并打印出“NaT”,这解释了这两者之间的区别。
>>> pandas.Series(npa)
0 NaT
>>> pandas.Series(npa)[0]
<Timestamp: 1969-12-31 15:58:10.448384>
前者似乎尊重 NA,但它只在打印时这样做。我想可能还有其他 pandas 函数调用“isnull”并根据答案采取行动,在这种情况下,这似乎部分适用于 NA 时间戳。但是,我知道由于元素零的类型,Series 是不正确的。它是Timestamp,但应该是NaTType。我的下一步是深入研究 Series 的构造函数,以找出 pandas 在构造过程中何时/如何使用NaT值。据推测,当我指定 dtype='M8[us]'... 时,它丢失了一个案例。
按照 Andy 在评论中的建议,我尝试使用 pandas Timestamp 来解决问题。它没有用。以下是这些结果的示例:
>>> npa = numpy.ndarray(1, dtype='i8')
>>> npa[0] = -9223372036854775808
>>> npa
array([-9223372036854775808])
>>> pandas.tslib.Timestamp(npa.view('M8[ns]')[0]).value
-9223372036854775808
>>> pandas.tslib.Timestamp(npa.view('M8[us]')[0]).value
-28909551616000