python - 熊猫打印条件在数据框列中成立的日期期间？

Question

我有一个.txt。文件如下所示：

Name 1
                                                           
                                                           
   @Name( )                  Value       WATER       WHP     
                  Date       Unit         Unit       Unit     
-------------- ---------- ---------- ---------- ---------- 
Name 1       20081220      2900.00       0.00    3300.00 
Name 1       20081221      0.00          0.00    3390.00 
Name 1       20081222      2500.00       0.00    2802.00 
Name 1       20081223      0.00          0.00    3022.00
Name 1       20081224      0.00          0.00    3022.00

我使用以下代码导入python：

df = pd.read_csv(r'test_prd.txt', skiprows=6, engine="python", header=None)
df.columns = ['Test']
df.drop(df.tail(1).index, inplace = True) # because of file format
df = df.Test.str.split(expand=True)

df.rename(columns ={0:'Name', 1:'Number', 2:'Date', 3:'Value', 4:'Water', 5:'WHP'}
,inplace=True)
df['Date'] = pd.to_datetime(df['Date']).dt.floor('D').dt.strftime('%Y-%m-%d')
df['Note'] = (df['Value']).apply(lambda x: 'yes' if x==0 else '')
del df['Water']
del df['WHP']
    
df['Name'] = df['Name'].astype(str) + ' ' + df['Number'].astype(str)
del df['Number']

使用此代码后，数据框如下所示：

           Name      Date       Value       Note
    0     Name 1  2008-12-20    2900.00      
    1     Name 1  2008-12-21    0.00         Yes
    2     Name 1  2008-12-22    2500.00      
    3     Name 1  2008-12-23    0.00         Yes
    4     Name 1  2008-12-24    0.00         Yes 
   ...    ...        ...        ...          ...
    78    Name    2009-03-15    0.00         Yes
    79    Name    2009-03-16    3000.00      
    80    Name    2009-03-17    0.00         Yes
   ...    ...        ...        ...          ...

我想打印“值”列等于零的时间段（开始日期 - 结束日期），即当“注意”=是时。可以从数据框中删除值非零的任何其他行。如果有一个独立的零值（前后是一个非零值），则开始日期和结束日期将相同。

预期的输出应如下所示：

      Name     Start Date      End Date     Value       Note
1     Name     2008-12-21    2008-12-21     0.00         Yes
2     Name     2008-12-23    2009-03-15     0.00         Yes
3     Name     2009-03-17        ***        0.00         Yes
       ...        ...           ...         ...          ...

我试图使用条件 if 语句或 df.loc 但我对 Python 的了解不足以将它们组合在一起。任何意见，将不胜感激。

score 1 · Accepted Answer

首先让我们使用read_csv

df = PD.read_csv("yourfile.txt", sep="\s+", engine="python", parse_dates=["Date"])
df["Value"] = df["Value"].astype(float)

请务必sep使用正确的列分隔符替换的值。这里我假设分隔符是一个或多个空格，如果不是，请调整它。
还要确保"Date"使用parse_dates参数将该列转换为日期时间，并且该"Value"列的类型为浮点数。

现在df作为你的数据框，这个片段应该做你想做的事。

df["Start"] = (df["Value"] == 0) & (df["Value"].shift(1) != 0)
ddf = df[df["Value"] == 0]
ddf["Group"] = ddf["Start"].cumsum()
rdf = ddf.groupby("Group").apply(lambda x: PD.Series({"Name":x["Name"].iloc[0],
                                                      "Start Date":x["Date"].min(),
                                                      "End Date":x["Date"].max(),
                                                      "Value": 0.,
                                                      "Note": "Yes",
                                                     })).reset_index(drop=True)

这里的重点是使用一些 pandas 功能以有效的方式实现您想要的。不要使用循环，如果您的数据框很大，您将需要大量时间来执行您的代码。

在这里，我首先创建一个"Start"列，在其中检查哪一行是零间隔系列行的开始。我通过将"Value"行向前移动 1 个位置并比较每一行来做到这一点。"Start"column 对于应该开始间隔的每一行都有一个 True 值。
然后我删除非零"Value"行。
然后我用cumsum在“开始”列上求和。这将创建一个新列，我可以使用它来将应该连接的间隔组合在一起。
最终，我可以使用groupbywithapply将这些组连接在一起，并为每个组创建一个新数据框的单行，我可以从该"Date"列中获取最早和最晚的日期。

使用您发布的行，最终结果是：

   Name Start Date   End Date  Value Note
0  Name 2008-12-21 2008-12-21    0.0  Yes
1  Name 2008-12-23 2009-03-15    0.0  Yes
2  Name 2009-03-17 2009-03-17    0.0  Yes

score 0 · Accepted Answer

要选择“注释”列为“是”的框架的所有行，请使用：

df.loc[df['Note'] == 'Yes']

这会产生一个包含仅满足上述条件的行的帧。

有关更多有用的操作，请参阅：如何根据列值从 DataFrame 中选择行

python - 熊猫打印条件在数据框列中成立的日期期间？

2 回答 2

Related

Reference