2

我正在尝试创建某种“功能选择”,让用户可以灵活地创建配置以在熊猫数据框中选择数据。然而,我遇到了一些令我困惑的问题。

下面是一个简化的例子:

>>> import pandas as pd
>>> df = pd.DataFrame({'date': pd.date_range(start='2020-01-01', periods=4), 'val': [1, 2, 3, 4]})
>>> df
        date  val
0 2020-01-01    1
1 2020-01-02    2
2 2020-01-03    3
3 2020-01-04    4

问题1:为什么我在不同的列上应用函数时会得到不同的结果?

>>> import datetime
>>> bydatetime = lambda x : x == datetime.date(2020, 1, 1)
>>> bydatetime(df['date'])
0    False
1    False
2    False
3    False
Name: date, dtype: bool
>>> df['date'].apply(bydatetime) # why does this one work?
0     True
1    False
2    False
3    False
Name: date, dtype: bool

但是,如果我使用 numpydatetime64或 pandasTimestamp类型来创建 lambda 函数,它会起作用。

>>> import numpy as np
>>> bynpdatetime = lambda x : x == np.datetime64('2020-01-01')
>>> bynpdatetime(df['date'])
0     True
1    False
2    False
3    False
Name: date, dtype: bool
>>> df['date'].apply(bynpdatetime)
0     True
1    False
2    False
3    False
Name: date, dtype: bool
>>> bypdtimestamp = lambda x : x == pd.Timestamp('2020-01-01')
>>> bypdtimestamp(df['date'])
0     True
1    False
2    False
3    False
Name: date, dtype: bool
>>> df['date'].apply(bypdtimestamp)
0     True
1    False
2    False
3    False
Name: date, dtype: bool

所以我恢复使用以下简单的选择,datetime.date但使用不起作用。如果datetime.date只是不起作用,为什么会df['date'].apply(bydatetime)起作用?

>>> df[df['date'] == datetime.date(2020, 1, 1)]
Empty DataFrame
Columns: [date, val]
Index: []
>>> df[df['date'] == np.datetime64('2020-01-01')]
        date  val
0 2020-01-01    1
>>> df[df['date'] == pd.Timestamp('2020-01-01')]
        date  val
0 2020-01-01    1

最后但并非最不重要的一点是,为什么DataFrame中的date列类型是选择一个单元格时?它们之间究竟有什么区别?datetime64Timestamp

>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   date    4 non-null      datetime64[ns]
 1   val     4 non-null      int64         
dtypes: datetime64[ns](1), int64(1)
memory usage: 192.0 bytes
>>>
>>> df['date'][0]
Timestamp('2020-01-01 00:00:00')

我确信这里有一些我不明白的基本内容。非常感谢您提出的任何建设性意见。

4

1 回答 1

3

幸运的是,我有一个旧版本的pandas(0.25),当你这样做时你会收到一个警告bynpdatetime(df['date']),这正是你看到这种行为的原因。关于如何处理这个问题有一些反复,所以看到这种行为将是高度特定于版本的:

FutureWarning:将日期时间系列与“datetime.date”进行比较。目前,“datetime.date”被强制转换为日期时间。将来 pandas 不会强制,并且“这些值不会比较等于”datetime.date”。要保留当前行为,请将“datetime.date”转换为带有“pd.Timestamp”的日期时间。

日期时间功能pandas基于np.datetime64np.timedelta64dtypes。您不应该使用 datetime 模块,因为他们做出了与标准库不一致的某些选择。所有的意外行为都是因为这个。


回答另一个不相关的问题。datetime64就像数组类型,或者概念。该数组(在本例中为 a pd.Series)将由标量timedelta64对象组成。这在文档中进行了解释

于 2020-03-27T14:51:21.400 回答