python - TypeError：Numpy.float64 对象不可调用迭代行熊猫数据框

Question

目前正在使用 pandas 处理数据集。对这类东西没有太多经验，所以任何帮助将不胜感激。数据集（如下所示）：

该表显示了与按年份分组的不同部分相关的评级。我正在尝试解析表格并从其相关年份列（不包括 nans）中提取最新评级，并将其Curr_Rate与评级在Curr_RatingYr.

第二个任务是提取第二个最近的评级（对应年份）并将这些值填充到Prev_Rate和PrevRatingYr字段中。最后，我需要从 2000-2017 年的所有可用评级中生成平均值。我的平均部分下降了，但是当我尝试解析表格以生成当前评级和先前评级的值时，我遇到了：

TypeError stating numpy.float64 object is not callable at index 0

任何帮助将不胜感激。

df = pd.read_excel('CurrPrevRate1.xlsx')

df.head()

dftest = df[:100]

    # Replace zeros with NaN
    dftest[['y2000', 'y2001', 'y2002', 'y2003', 'y2004', 'y2005', 'y2006','y2007', 'y2008', 'y2009', 'y2010', 'y2011', 'y2012', 'y2013', 'y2014', 'y2015', 'y2016', 'y2017']] = dftest[['y2000','y2001', 'y2002', 'y2003', 'y2004', 'y2005', 'y2006','y2007', 'y2008', 'y2009', 'y2010', 'y2011', 'y2012', 'y2013', 'y2014', 'y2015', 'y2016', 'y2017']].replace(0, np.nan)

    #Change all values in these columns to floats
    #dftest[['y2000', 'y2001', 'y2002', 'y2003', 'y2004', 'y2005', 'y2006','y2007', 'y2008', 'y2009', 'y2010', 'y2011', 'y2012', 'y2013', 'y2014', 'y2015', 'y2016', 'y2017']] = dftest[['y2000', 'y2001', 'y2002', 'y2003', 'y2004', 'y2005', 'y2006','y2007', 'y2008', 'y2009', 'y2010', 'y2011', 'y2012', 'y2013', 'y2014', 'y2015', 'y2016', 'y2017']].apply(pd.to_numeric)

    #Get average of rows 
    dftest['AvgRating'] = dftest[['y2000', 'y2001', 'y2002', 'y2003', 'y2004', 'y2005', 'y2006','y2007', 'y2008', 'y2009', 'y2010', 'y2011', 'y2012', 'y2013', 'y2014', 'y2015', 'y2016', 'y2017']].mean(axis=1)

    def getCurrRate():
        for x in dftest['y2017']:
            if 0 <= x <= 10:
                return x
            else:
                for y in dftest['y2016']:
                    if 0 <= y <= 10:
                        return y
                    else:
                        for z in dftest['y2015']:
                            if 0 <= z <= 10:
                                return z
                            else:
                                return 'N/A'

    dftest['Curr_Rate'] = dftest[['y2000', 'y2001', 'y2002', 'y2003', 'y2004', 'y2005', 'y2006','y2007', 'y2008', 'y2009', 'y2010', 'y2011', 'y2012', 'y2013', 'y2014', 'y2015', 'y2016', 'y2017']].apply(getCurrRate(), axis=1)

    dftest

score 1 · Accepted Answer

该错误似乎与您的apply()语法有关。

apply()用函数名调用，()最后没有。例如apply(getCurrRate, axis=1)。
您应用数据的函数通常需要一个参数，例如getCurrRate(yr). 在这里，yr是从隐式传递的对象apply()，因此axis=1您将执行：
```
getCurrRate(dftest.y2000)
getCurrRate(dftest.y2001)
#...
getCurrRate(dftest.y2017)
```
但是如果您的getCurrRate定义中没有参数，apply()则没有任何可应用的内容。

至少对于的情况currRate，您似乎真的只想从列中获取最新的非NaN值。y<year>在这种情况下，考虑一种更简单的方法：

def getCurrRate(yr):
    return yr.dropna()[-1]

ratings_cols = df.columns[df.columns.str.startswith('y')]
df['currRate'] = df[ratings_cols].apply(getCurrRate, axis=1)

这里有一些玩具数据来演示：

data = {'segmentId':['foo','bar','baz'],
        'y2015':[5, 6, 7],
        'y2016':[2, np.nan, 4],
        'y2017':[np.nan, np.nan, 9]}
df = pd.DataFrame(data)

df
  segmentId  y2015  y2016  y2017
0       foo      5    2.0    NaN
1       bar      6    NaN    NaN
2       baz      7    4.0    9.0

我们期望以下值currRate：

指数0：2
指数1：6
指数2：9

这就是我们得到的新的getCurrRate：

df['currRate'] = df[ratings_cols].apply(getCurrRate, axis=1)

df
  segmentId  y2015  y2016  y2017  currRate
0       foo      5    2.0    NaN       2.0
1       bar      6    NaN    NaN       6.0
2       baz      7    4.0    9.0       9.0

python - TypeError：Numpy.float64 对象不可调用迭代行熊猫数据框

1 回答 1

Related

Reference