2

嗨,我正在使用 Kaggle Titanic 数据。我曾经apply(lambda x: x.upper())在多个列上工作,但它不起作用。

我把数据放在我的谷歌驱动器上,你可以在这里下载。

我对每一列进行测试,这是所有object类型的(我认为这意味着str,如果有错请纠正我)。但有些专栏报道'float' object has no attribute 'upper'

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

train = pd.read_csv('train.csv', header=0)

train.ix[:,['Name', 'Sex', 'Ticket', 'Cabin', 'Embarked']].dtypes
# Name        object
# Sex         object
# Ticket      object
# Cabin       object
# Embarked    object
# dtype: object

train.ix[:,['Name', 'Sex', 'Ticket', 'Cabin', 'Embarked']].apply(lambda x: x.upper()) 
# not work

# try each column
train.ix[:,'Name'].apply(lambda x: x.upper()) # works
train.ix[:,'Sex'].apply(lambda x: x.upper()) # works
train.ix[:,'Ticket'].apply(lambda x: x.upper()) # works
train.ix[:,'Cabin'].apply(lambda x: x.upper()) # AttributeError: 'float' object has no attribute 'upper'
train.ix[:,'Embarked'].apply(lambda x: x.upper()) # AttributeError: 'float' object has no attribute 'upper'

任何帮助表示赞赏。谢谢!

4

2 回答 2

5

这是因为您的列CabinEmbarked包含NaN具有 dtype 的值np.float。你可以用你的申请类型检查它:

In [355]: train.Cabin.apply(lambda x: type(x))[:10]
Out[355]:
0    <class 'float'>
1      <class 'str'>
2    <class 'float'>
3      <class 'str'>
4    <class 'float'>
5    <class 'float'>
6      <class 'str'>
7    <class 'float'>
8    <class 'float'>
9    <class 'float'>
Name: Cabin, dtype: object

所以你可以默认使用str.upper哪个句柄NaN。或者您可以将您的值填充为具有方法NaN的空字符串'',然后使用您的 `lambda 函数:fillnaupper

In [363]: train.Cabin.fillna('').apply(lambda x: x.upper)[:5]
Out[363]:
0
1     C85
2
3    C123
4
Name: Cabin, dtype: object

In [365]: train.Cabin.str.upper()[:5]
Out[365]:
0     NaN
1     C85
2     NaN
3    C123
4     NaN
Name: Cabin, dtype: object

或者,如果您想保存NaN为 sting,您可以使用NaN字符串填充:

In [369]: train.Cabin.fillna('NaN').apply(lambda x: x.upper())[:5]
Out[369]:
0     NAN
1     C85
2     NAN
3    C123
4     NAN
Name: Cabin, dtype: object
于 2016-02-11T10:57:14.760 回答
1

这些列中存在缺失值。这些由numpy.nanwhich is a float 表示。如果您使用.str.upper()而不是.apply(lambda x: x.upper()),那将识别这一事实并且不会产生错误。

于 2016-02-11T10:41:00.503 回答