219

我想在 Pandas 数据框中查找包含空格(任意数量)的所有值,并将这些值替换为 NaN。

有什么想法可以改进吗?

基本上我想把这个:

                   A    B    C
2000-01-01 -0.532681  foo    0
2000-01-02  1.490752  bar    1
2000-01-03 -1.387326  foo    2
2000-01-04  0.814772  baz     
2000-01-05 -0.222552         4
2000-01-06 -1.176781  qux     

进入这个:

                   A     B     C
2000-01-01 -0.532681   foo     0
2000-01-02  1.490752   bar     1
2000-01-03 -1.387326   foo     2
2000-01-04  0.814772   baz   NaN
2000-01-05 -0.222552   NaN     4
2000-01-06 -1.176781   qux   NaN

我已经设法用下面的代码来做到这一点,但人是丑陋的。它不是 Pythonic,我敢肯定它也不是对 pandas 的最有效使用。我遍历每一列,并对通过应用对每个值进行正则表达式搜索的函数生成的列掩码进行布尔替换,匹配空白。

for i in df.columns:
    df[i][df[i].apply(lambda i: True if re.search('^\s*$', str(i)) else False)]=None

它可以通过仅遍历可能包含空字符串的字段来进行一些优化:

if df[i].dtype == np.dtype('object')

但这并没有太大的改善

最后,此代码将目标字符串设置为 None,这适用于 Pandas 的函数,例如fillna(),但如果我实际上可以NaN直接插入 a 而不是None.

4

13 回答 13

283

我认为df.replace()这项工作,因为pandas 0.13

df = pd.DataFrame([
    [-0.532681, 'foo', 0],
    [1.490752, 'bar', 1],
    [-1.387326, 'foo', 2],
    [0.814772, 'baz', ' '],     
    [-0.222552, '   ', 4],
    [-1.176781,  'qux', '  '],         
], columns='A B C'.split(), index=pd.date_range('2000-01-01','2000-01-06'))

# replace field that's entirely space (or empty) with NaN
print(df.replace(r'^\s*$', np.nan, regex=True))

产生:

                   A    B   C
2000-01-01 -0.532681  foo   0
2000-01-02  1.490752  bar   1
2000-01-03 -1.387326  foo   2
2000-01-04  0.814772  baz NaN
2000-01-05 -0.222552  NaN   4
2000-01-06 -1.176781  qux NaN

正如Temak指出的那样,df.replace(r'^\s+$', np.nan, regex=True)在您的有效数据包含空格的情况下使用。

于 2014-02-21T18:48:53.760 回答
93

如果你想用空格替换一个空字符串和记录,正确的答案是!:

df = df.replace(r'^\s*$', np.nan, regex=True)

接受的答案

df.replace(r'\s+', np.nan, regex=True)

不替换空字符串!,您可以尝试使用稍微更新的给定示例:

df = pd.DataFrame([
    [-0.532681, 'foo', 0],
    [1.490752, 'bar', 1],
    [-1.387326, 'fo o', 2],
    [0.814772, 'baz', ' '],     
    [-0.222552, '   ', 4],
    [-1.176781,  'qux', ''],         
], columns='A B C'.split(), index=pd.date_range('2000-01-01','2000-01-06'))

请注意,'fo o' 也不会被 Nan 替换,尽管它包含一个空格。进一步注意,一个简单的:

df.replace(r'', np.NaN)

也不起作用 - 试试看。

于 2017-12-14T10:20:12.177 回答
39

怎么样:

d = d.applymap(lambda x: np.nan if isinstance(x, basestring) and x.isspace() else x)

applymap函数将一个函数应用于数据帧的每个单元格。

于 2012-11-18T23:15:17.407 回答
28

我这样做了:

df = df.apply(lambda x: x.str.strip()).replace('', np.nan)

或者

df = df.apply(lambda x: x.str.strip() if isinstance(x, str) else x).replace('', np.nan)

您可以剥离所有 str,然后将空 str 替换为np.nan.

于 2016-04-29T09:34:48.197 回答
9

如果您要从 CSV 文件中导出数据,它可以像这样简单:

df = pd.read_csv(file_csv, na_values=' ')

这将创建数据框并将空白值替换为 Na

于 2018-01-07T16:07:39.943 回答
7

最简单的解决方案:

df = df.replace(r'^\s+$', np.nan, regex=True)
于 2018-03-22T14:44:17.380 回答
4

对于检查单个值是否相等的非常快速且简单的解决方案,您可以使用该mask方法。

df.mask(df == ' ')
于 2017-11-03T22:48:51.003 回答
2

这对我有用。当我导入我的 csv 文件时,我添加了 na_values = ' '。默认 NaN 值中不包含空格。

df= pd.read_csv(filepath,na_values = ' ')
于 2020-05-08T00:49:01.253 回答
2

这些都接近正确答案,但我不会说任何解决问题的方法,同时保持对阅读您代码的其他人的可读性。我想说这个答案是BrenBarn 的答案和 tuomastik 在该答案下方的评论的组合。BrenBarn 的答案利用isspace内置,但不支持删除空字符串,正如 OP 要求的那样,我倾向于将其归因于用 null 替换字符串的标准用例。

我用 重写了它,所以你可以用或.apply来调用它。pd.Seriespd.DataFrame


蟒蛇 3:

要替换空字符串或完全由空格组成的字符串:

df = df.apply(lambda x: np.nan if isinstance(x, str) and (x.isspace() or not x) else x)

要替换完全空格的字符串:

df = df.apply(lambda x: np.nan if isinstance(x, str) and x.isspace() else x)

要在 Python 2 中使用它,您需要将其替换strbasestring.

蟒蛇2:

要替换空字符串或完全由空格组成的字符串:

df = df.apply(lambda x: np.nan if isinstance(x, basestring) and (x.isspace() or not x) else x)

要替换完全空格的字符串:

df = df.apply(lambda x: np.nan if isinstance(x, basestring) and x.isspace() else x)
于 2019-05-12T04:05:16.230 回答
1
print(df.isnull().sum()) # check numbers of null value in each column

modifiedDf=df.fillna("NaN") # Replace empty/null values with "NaN"

# modifiedDf = fd.dropna() # Remove rows with empty values

print(modifiedDf.isnull().sum()) # check numbers of null value in each column
于 2018-09-29T20:31:29.010 回答
0

这不是一个优雅的解决方案,但似乎可行的是保存到 XLSX,然后将其导入回来。此页面上的其他解决方案对我不起作用,不知道为什么。

data.to_excel(filepath, index=False)
data = pd.read_excel(filepath)
于 2019-01-14T05:02:20.313 回答
0

这应该工作

df.loc[df.Variable == '', 'Variable'] = 'Value'

或者

df.loc[df.Variable1 == '', 'Variable2'] = 'Value'
于 2020-10-08T10:54:27.460 回答
-3

你也可以使用过滤器来做到这一点。

df = PD.DataFrame([
    [-0.532681, 'foo', 0],
    [1.490752, 'bar', 1],
    [-1.387326, 'foo', 2],
    [0.814772, 'baz', ' '],     
    [-0.222552, '   ', 4],
    [-1.176781,  'qux', '  '])
    df[df=='']='nan'
    df=df.astype(float)
于 2018-02-01T10:14:45.387 回答