9

我有一个跨越几年的数据框,并且在某些时候他们更改了种族代码。所以我需要重新编码以年份为条件的值 - 这是同一数据框中的另一列。例如 1 到 3、2 到 3、3 到 4 等等:

old = [1, 2, 3, 4, 5, 91]
new = [3, 3, 4, 2, 1, 6]

这仅适用于 1996 年至 2001 年。同一列(种族)中其他年份的值不得更改。为了避免过多的低效循环,我尝试了:

    recode_years = range(1996,2002)
    for year in recode_years:
        df['ethnicity'][df.year==year].replace(old, new, inplace=True)

但是数据框中的原始值没有改变。replace 方法本身正确替换并返回了新值,但 inplace 选项在应用条件时似乎不会影响原始数据框。这对于有经验的 Pandas 用户来说可能是显而易见的,但肯定有一些简单的方法可以做到这一点,而不是循环遍历每个单个元素?

编辑(x2):她是另一种方法的一个例子,它也不起作用('替换长度必须等于系列长度'和“TypeError:数组不能安全地转换为所需的类型”):

oldNewMap = {1:2, 2:3}
df2 = DataFrame({"year":[2000,2000,2000,2001,2001,2001],"ethnicity":[1,2,1,2,3,1]})
df2['ethnicity'][df2.year==2000] = df2['ethnicity'][df2.year==2000].map(oldNewMap)

编辑:这似乎是特定于安装/版本的问题,因为这在我的另一台计算机上运行良好。

4

1 回答 1

10

以不同的方式来做可能会更简单:

oldNewMap = {1: 3, 2: 3, 3: 4, 4: 2, 5: 1, 91: 6}
df['ethnicity'][df.year==year] = df['ethnicity'][df.year==year].map(oldNewMap)
于 2013-04-22T17:59:58.753 回答