65

我喜欢 pandas 并且多年来一直在使用它,并且非常有信心我可以很好地处理如何对数据帧进行子集化以及适当地处理视图与副本(尽管我使用了很多断言来确定)。我也知道有很多关于 SettingWithCopyWarning 的问题,例如如何处理 Pandas 中的 SettingWithCopyWarning? 以及一些关于在它发生时绕开你的头的最新指南,例如了解 Pandas 中的 SettingWithCopyWarning

但我也知道具体的事情,比如这个答案中的引用不再出现在最新的文档0.22.0

.iloc最近,在教 pandas 让新手完成关于避免链式索引(和使用/ )等非常基本的 Python 知识之后.loc,我仍然很难提供一般的经验法则来了解何时需要注意SettingWithCopyWarning(例如,何时忽略它是安全的)。

我个人发现,根据某些规则(例如切片或布尔操作)对数据框进行子集化,然后独立于原始数据框修改该子集的特定模式是比文档建议的更常见的操作。在这种情况下,我们想要修改副本而不是原始版本,并且警告对新手来说是令人困惑/害怕的。

我知道提前知道何时返回视图与副本并非易事,例如
,Pandas 使用什么规则来生成视图与副本?
在 Pandas 中检查数据框是复制还是查看

因此,我正在寻找更一般(初学者友好)问题的答案:对子集数据帧执行操作何时会影响创建它的原始数据帧,它们何时独立?.

我在下面创建了一些我认为合理的案例,但我不确定我是否遗漏了“陷阱”,或者是否有更简单的方法来思考/检查这一点。我希望有人可以确认我对以下用例的直觉与我上面的问题有关。

import pandas as pd
df1 = pd.DataFrame({'A':[2,4,6,8,10],'B':[1,3,5,7,9],'C':[10,20,30,40,50]})

1) 警告:无
原件更改:无

# df1 will be unaffected because we use .copy() method explicitly 
df2 = df1.copy()
#
# Reference: docs
df2.iloc[0,1] = 100

2)警告:是(我不太明白为什么)
原来的变化:否

# df1 will be unaffected because .query() always returns a copy
#
# Reference:
# https://stackoverflow.com/a/23296545/8022335
df2 = df1.query('A < 10')
df2.iloc[0,1] = 100

3)警告:是
原始更改:否

# df1 will be unaffected because boolean indexing with .loc
# always returns a copy
#
# Reference:
# https://stackoverflow.com/a/17961468/8022335
df2 = df1.loc[df1['A'] < 10,:]
df2.iloc[0,1] = 100

4) 警告:无
原件更改:无

# df1 will be unaffected because list indexing with .loc (or .iloc)
# always returns a copy
#
# Reference:
# Same as 4)
df2 = df1.loc[[0,3,4],:]
df2.iloc[0,1] = 100

5) 警告:否
原件更改:是(让新手感到困惑,但有道理)

# df1 will be affected because scalar/slice indexing with .iloc/.loc
# always references the original dataframe, but may sometimes 
# provide a view and sometimes provide a copy
#
# Reference: docs
df2 = df1.loc[:10,:]
df2.iloc[0,1] = 100

tl;dr 从原始数据帧创建新数据帧时,更改新数据帧:当使用 .loc/.iloc 的标量/切片索引创建新数据帧
时,将更改原始数据帧。使用 .loc进行布尔索引时 不会更改原始索引,或用于创建新数据帧
.query().copy()

4

3 回答 3

18

这是 pandas 的一个有点令人困惑甚至令人沮丧的部分,但在大多数情况下,如果您遵循一些简单的工作流程规则,您不必真正担心这一点。特别要注意,当您有两个数据帧时,这里只有两种一般情况,其中一个是另一个的子集。

在这种情况下,Python 的禅宗规则“显式优于隐式”是一个很好的指导方针。

案例 A:更改不df2应该影响df1

当然,这是微不足道的。您需要两个完全独立的数据框,因此您只需明确地制作一个副本:

df2 = df1.copy()

在此之后,您所做的任何事情都df2只会影响df2而不影响df1,反之亦然。

案例 B:更改df2应该也影响df1

在这种情况下,我认为没有一种通用的方法可以解决问题,因为这完全取决于您要做什么。但是,有一些标准方法非常简单,它们的工作方式不应有任何歧义。

方法一:复制df1到df2,然后用df2更新df1

在这种情况下,您基本上可以对上面的示例进行一对一的转换。这是示例#2:

df2 = df1.copy()
df2 = df1.query('A < 10')
df2.iloc[0,1] = 100

df1 = df2.append(df1).reset_index().drop_duplicates(subset='index').drop(columns='index')

不幸的是,那里的重新合并append有点冗长。尽管它具有将整数转换为浮点数的副作用,但您可以使用以下方法更清晰地完成此操作。

df1.update(df2)   # note that this is an inplace operation

方法2:使用蒙版(根本不创建df2

我认为这里最好的通用方法根本不是创建df2,而是让它成为df1. 有点遗憾的是,您不能直接翻译上述代码,因为它混合了lociloc这对于本示例来说很好,尽管对于实际使用可能不切实际。

优点是可以编写非常简单易读的代码。这是上面示例 #2 的替代版本,其中df2实际上只是df1. iloc但是,如果列“C”== 10,我将更改而不是更改 via 。

df2_mask = df1['A'] < 10
df1.loc[ df2_mask & (df1['C'] == 10), 'B'] = 100

现在,如果您打印df1,或者df1[df2_mask]您将看到每个数据帧的第一行的列“B”= 100。显然这在这里并不奇怪,但这是遵循“显式优于隐式”的固有优势。

于 2018-09-05T09:53:29.407 回答
0

我有同样的疑问,我过去搜索过这个回复没有成功。所以现在,我只是证明原始文件没有改变,并在开始删除警告时对程序使用这种和平的代码:

 import pandas as pd
 pd.options.mode.chained_assignment = None  # default='warn'
于 2018-02-05T04:45:35.270 回答
-4

您只需要替换.iloc[0,1].iat[0,1].

更一般地说,如果您只想修改一个元素,您应该使用.iat.at方法。相反,当您一次修改更多元素时,您应该使用.locor.iloc方法。

这样做大熊猫不应该发出任何警告。

于 2018-02-18T12:45:13.643 回答