python - 混淆重新：数据框警告切片的熊猫副本

Question

我查看了一堆与此问题相关的问题和答案，但我仍然发现我在我不期望的地方收到了切片警告的副本。此外，它出现在以前对我来说运行良好的代码中，这让我想知道某种更新是否可能是罪魁祸首。

例如，这是一组代码，我所做的只是将 Excel 文件读入 pandas DataFrame，并减少df[[]]语法中包含的列集。

 izmir = pd.read_excel(filepath)
 izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60','MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5','MC_OLD_18>F>5',
               'MC_OLD_M_Child<5','MC_OLD_F_Child<5','MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery','Date to insert','Date of Entery']]

现在，我对该izmir_lim文件所做的任何进一步更改都会引发切片警告的副本。

izmir_lim['Age'] = izmir_lim.Age.fillna(0)
izmir_lim['Age'] = izmir_lim.Age.astype(int)

/Users/samillienfeld/anaconda/lib/python3.5/site-packages/ipykernel/ main .py:2：SettingWithCopyWarning：试图在数据帧的切片副本上设置值。尝试改用 .loc[row_indexer,col_indexer] = value

我很困惑，因为我认为df[[]]列子集默认返回一个副本。我发现抑制错误的唯一方法是显式添加df[[]].copy(). 我可以发誓过去我不必这样做，也没有引发切片错误的副本。

同样，我还有一些其他代码在数据帧上运行函数以以某些方式对其进行过滤：

def lim(df):
if (geography == "All"):
    df_geo = df
else:
    df_geo = df[df.center_JO == geography]

df_date = df_geo[(df_geo.date_survey >= start_date) & (df_geo.date_survey <= end_date)]

return df_date

df_lim = lim(df)

从现在开始，我对任何值所做的任何更改都会df_lim引发切片错误的副本。我发现的唯一解决方法是将函数调用更改为：

df_lim = lim(df).copy()

这对我来说似乎是错误的。我错过了什么？似乎这些用例应该默认返回副本，我可以发誓我上次运行这些脚本时没有遇到这些错误。
我只需要开始到处添加.copy()吗？似乎应该有一种更清洁的方法来做到这一点。非常感谢任何见解或帮助。

score 35 · Accepted Answer

 izmir = pd.read_excel(filepath)
 izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60',
                    'MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5',
                    'MC_OLD_18>F>5','MC_OLD_M_Child<5','MC_OLD_F_Child<5',
                    'MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery',
                    'Date to insert','Date of Entery']]

izmir_lim是的视图/副本izmir。您随后尝试分配给它。这就是引发错误的原因。改用这个：

 izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60',
                    'MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5',
                    'MC_OLD_18>F>5','MC_OLD_M_Child<5','MC_OLD_F_Child<5',
                    'MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery',
                    'Date to insert','Date of Entery']].copy()

每当您以以下方式从另一个数据框“创建”新数据框时：

new_df = old_df[list_of_columns_names]

new_dfis_copy将在其属性中具有真实值。当您尝试分配给它时，pandas 会抛出SettingWithCopyWarning.

new_df.iloc[0, 0] = 1  # Should throw an error

您可以通过多种方式克服这一问题。

选项1

new_df = old_df[list_of_columns_names].copy()

选项#2（正如@ayhan 在评论中建议的那样）

new_df = old_df[list_of_columns_names]
new_df.is_copy = None

选项#3

new_df = old_df.loc[:, list_of_columns_names]

python - 混淆重新：数据框警告切片的熊猫副本

1 回答 1

选项1

选项#2（正如@ayhan 在评论中建议的那样）

选项#3

Related

Reference