5

访问时DataFrame.values,所有pd.Timestamp对象都转换为np.datetime64对象,为什么?可以存在np.ndarray包含pd.Timestamp对象,因此我不明白为什么总是会发生这种自动转换。

你知道如何预防吗?

最小的例子:

import numpy as np
import pandas as pd
from datetime import datetime

# Let's declare an array with a datetime.datetime object
values = [datetime.now()]
print(type(values[0]))
> <class 'datetime.datetime'>

# Clearly, the datetime.datetime objects became pd.Timestamp once moved to a pd.DataFrame
df = pd.DataFrame(values, columns=['A'])
print(type(df.iloc[0][0]))
> <class 'pandas._libs.tslibs.timestamps.Timestamp'>

# Just to be sure, lets iterate over each datetime and manually convert them to pd.Timestamp
df['A'].apply(lambda x: pd.Timestamp(x))
print(type(df.iloc[0][0]))
> <class 'pandas._libs.tslibs.timestamps.Timestamp'>

# df.values (or series.values in this case) returns an np.ndarray
print(type(df.iloc[0].values))
> <class 'numpy.ndarray'>

# When we check what is the type of elements of the '.values' array, 
# it turns out the pd.Timestamp objects got converted to np.datetime64
print(type(df.iloc[0].values[0]))
> <class 'numpy.datetime64'>


# Just to double check, can an np.ndarray contain pd.Timestamps?
timestamp = pd.Timestamp(datetime.now())
timestamps = np.array([timestamp])
print(type(timestamps))
> <class 'numpy.ndarray'>

# Seems like it does. Why the above conversion then?
print(type(timestamps[0]))
> <class 'pandas._libs.tslibs.timestamps.Timestamp'>

蟒蛇:3.6.7.final.0

熊猫:0.25.3

麻木:1.16.4

4

2 回答 2

5

找到了一种解决方法 - 使用.array而不是.values文档

print(type(df['A'].array[0]))
> <class 'pandas._libs.tslibs.timestamps.Timestamp'>

这可以防止转换并让我可以访问我想要使用的对象。

于 2020-03-04T01:07:28.367 回答
4

背后的整个想法.values是:

返回 DataFrame 的 Numpy 表示。[文档]

我发现 apd.Timestamp被“降级”dtype为原生的 a 是合乎逻辑的numpy。如果它不会这样做,那么它的目的是.values什么?

如果您确实想保留,pd.Timestamp dtype我建议您使用原始Series( df.iloc[0])。我没有看到任何其他方式,因为.values用于np.ndarray根据 Github 上的源进行转换。

于 2019-11-07T16:53:10.197 回答