python - 从列中的字符串中删除不需要的部分

Question

我正在寻找一种有效的方法来从 DataFrame 列中的字符串中删除不需要的部分。

数据如下：

    time    result
1    09:00   +52A
2    10:00   +62B
3    11:00   +44a
4    12:00   +30b
5    13:00   -110a

我需要将这些数据修剪为：

    time    result
1    09:00   52
2    10:00   62
3    11:00   44
4    12:00   30
5    13:00   110

我试过了.str.lstrip('+-')。str.rstrip('aAbBcC')，但出现错误：

TypeError: wrapper() takes exactly 1 argument (2 given)

任何指针将不胜感激！

score 237 · Accepted Answer

237

data['result'] = data['result'].map(lambda x: x.lstrip('+-').rstrip('aAbBcC'))

于 2012-12-03T11:33:51.673 回答

score 190 · Accepted Answer

如何从列中的字符串中删除不需要的部分？

在最初的问题发布 6 年后，pandas 现在拥有大量“矢量化”字符串函数，可以简洁地执行这些字符串操作操作。

这个答案将探索其中一些字符串函数，提出更快的替代方案，并在最后进行时间比较。

`.str.replace`

指定要匹配的子字符串/模式，以及要替换它的子字符串。

pd.__version__
# '0.24.1'

df    
    time result
1  09:00   +52A
2  10:00   +62B
3  11:00   +44a
4  12:00   +30b
5  13:00  -110a

df['result'] = df['result'].str.replace(r'\D', '')
df

    time result
1  09:00     52
2  10:00     62
3  11:00     44
4  12:00     30
5  13:00    110

如果需要将结果转换为整数，可以使用Series.astype,

df['result'] = df['result'].str.replace(r'\D', '').astype(int)

df.dtypes
time      object
result     int64
dtype: object

如果您不想df就地修改，请使用DataFrame.assign：

df2 = df.assign(result=df['result'].str.replace(r'\D', ''))
df
# Unchanged

`.str.extract`

用于提取要保留的子字符串。

df['result'] = df['result'].str.extract(r'(\d+)', expand=False)
df

    time result
1  09:00     52
2  10:00     62
3  11:00     44
4  12:00     30
5  13:00    110

使用extract，必须指定至少一个捕获组。expand=False将返回一个系列，其中包含第一个捕获组中捕获的项目。

`.str.split`和`.str.get`

假设您的所有字符串都遵循这种一致的结构，则拆分工作。

# df['result'] = df['result'].str.split(r'\D').str[1]
df['result'] = df['result'].str.split(r'\D').str.get(1)
df

    time result
1  09:00     52
2  10:00     62
3  11:00     44
4  12:00     30
5  13:00    110

如果您正在寻找通用解决方案，不建议这样做。

如果您对上面简洁易读的基于访问器的解决方案感到满意str ，您可以到此为止。但是，如果您对更快、性能更高的替代方案感兴趣，请继续阅读。

优化：列表理解

在某些情况下，列表推导应该优于 pandas 字符串函数。原因是因为字符串函数本质上很难向量化（真正意义上的），所以大多数字符串和正则表达式函数只是循环的包装器，开销更大。

我的文章， Pandas 中的 for 循环真的很糟糕吗？我什么时候应该关心？, 更详细。

该str.replace选项可以使用重写re.sub

import re

# Pre-compile your regex pattern for more performance.
p = re.compile(r'\D')
df['result'] = [p.sub('', x) for x in df['result']]
df

    time result
1  09:00     52
2  10:00     62
3  11:00     44
4  12:00     30
5  13:00    110

该str.extract示例可以使用列表推导式重写re.search，

p = re.compile(r'\d+')
df['result'] = [p.search(x)[0] for x in df['result']]
df

    time result
1  09:00     52
2  10:00     62
3  11:00     44
4  12:00     30
5  13:00    110

如果有可能出现 NaN 或不匹配，您将需要重写上面的内容以包含一些错误检查。我使用一个函数来做到这一点。

def try_extract(pattern, string):
    try:
        m = pattern.search(string)
        return m.group(0)
    except (TypeError, ValueError, AttributeError):
        return np.nan

p = re.compile(r'\d+')
df['result'] = [try_extract(p, x) for x in df['result']]
df

    time result
1  09:00     52
2  10:00     62
3  11:00     44
4  12:00     30
5  13:00    110

我们还可以使用列表推导重写 @eumiro 和 @MonkeyButter 的答案：

df['result'] = [x.lstrip('+-').rstrip('aAbBcC') for x in df['result']]

和，

df['result'] = [x[1:-1] for x in df['result']]

适用于处理 NaN 等的相同规则。

性能比较

使用perfplot生成的图表。完整的代码清单，供您参考。下面列出了相关的功能。

其中一些比较是不公平的，因为它们利用了 OP 数据的结构，但您可以从中获取。需要注意的一点是，每个列表理解函数都比其等效的 pandas 变体更快或可比。

职能

def eumiro(df):
    return df.assign(
        result=df['result'].map(lambda x: x.lstrip('+-').rstrip('aAbBcC')))

def coder375(df):
    return df.assign(
        result=df['result'].replace(r'\D', r'', regex=True))

def monkeybutter(df):
    return df.assign(result=df['result'].map(lambda x: x[1:-1]))

def wes(df):
    return df.assign(result=df['result'].str.lstrip('+-').str.rstrip('aAbBcC'))

def cs1(df):
    return df.assign(result=df['result'].str.replace(r'\D', ''))

def cs2_ted(df):
    # `str.extract` based solution, similar to @Ted Petrou's. so timing together.
    return df.assign(result=df['result'].str.extract(r'(\d+)', expand=False))

def cs1_listcomp(df):
    return df.assign(result=[p1.sub('', x) for x in df['result']])

def cs2_listcomp(df):
    return df.assign(result=[p2.search(x)[0] for x in df['result']])

def cs_eumiro_listcomp(df):
    return df.assign(
        result=[x.lstrip('+-').rstrip('aAbBcC') for x in df['result']])

def cs_mb_listcomp(df):
    return df.assign(result=[x[1:-1] for x in df['result']])

score 58 · Accepted Answer

我会使用 pandas 替换功能，非常简单且功能强大，因为您可以使用正则表达式。下面我使用正则表达式 \D 删除任何非数字字符，但显然你可以使用正则表达式获得相当的创意。

data['result'].replace(regex=True,inplace=True,to_replace=r'\D',value=r'')

score 37 · Accepted Answer

在您知道要从数据框列中删除的位置数的特定情况下，您可以在 lambda 函数中使用字符串索引来删除这些部分：

最后一个字符：

data['result'] = data['result'].map(lambda x: str(x)[:-1])

前两个字符：

data['result'] = data['result'].map(lambda x: str(x)[2:])

score 18 · Accepted Answer

这里有一个错误：目前无法将参数传递给str.lstripand str.rstrip：

http://github.com/pydata/pandas/issues/2411

编辑：2012-12-07 现在可以在 dev 分支上使用：

In [8]: df['result'].str.lstrip('+-').str.rstrip('aAbBcC')
Out[8]: 
1     52
2     62
3     44
4     30
5    110
Name: result

score 11 · Accepted Answer

一个非常简单的方法是使用该extract方法选择所有数字。'\d+'只需为其提供提取任意数量数字的正则表达式。

df['result'] = df.result.str.extract(r'(\d+)', expand=True).astype(int)
df

    time  result
1  09:00      52
2  10:00      62
3  11:00      44
4  12:00      30
5  13:00     110

score 7 · Accepted Answer

假设您的 DF 在数字之间也有那些额外的字符。最后一个条目。

  result   time
0   +52A  09:00
1   +62B  10:00
2   +44a  11:00
3   +30b  12:00
4  -110a  13:00
5   3+b0  14:00

您可以尝试 str.replace 不仅从开头和结尾删除字符，还可以从中间删除字符。

DF['result'] = DF['result'].str.replace('\+|a|b|\-|A|B', '')

输出：

  result   time
0     52  09:00
1     62  10:00
2     44  11:00
3     30  12:00
4    110  13:00
5     30  14:00

score 6 · Accepted Answer

我经常对这些类型的任务使用列表推导，因为它们通常更快。

执行此类操作的各种方法之间的性能可能存在很大差异（即修改 DataFrame 中系列的每个元素）。列表理解通常是最快的 - 请参阅下面的代码竞赛以了解此任务：

import pandas as pd
#Map
data = pd.DataFrame({'time':['09:00','10:00','11:00','12:00','13:00'], 'result':['+52A','+62B','+44a','+30b','-110a']})
%timeit data['result'] = data['result'].map(lambda x: x.lstrip('+-').rstrip('aAbBcC'))
10000 loops, best of 3: 187 µs per loop
#List comprehension
data = pd.DataFrame({'time':['09:00','10:00','11:00','12:00','13:00'], 'result':['+52A','+62B','+44a','+30b','-110a']})
%timeit data['result'] = [x.lstrip('+-').rstrip('aAbBcC') for x in data['result']]
10000 loops, best of 3: 117 µs per loop
#.str
data = pd.DataFrame({'time':['09:00','10:00','11:00','12:00','13:00'], 'result':['+52A','+62B','+44a','+30b','-110a']})
%timeit data['result'] = data['result'].str.lstrip('+-').str.rstrip('aAbBcC')
1000 loops, best of 3: 336 µs per loop

score 0 · Accepted Answer

尝试使用正则表达式：

import re
data['result'] = data['result'].map(lambda x: re.sub('[-+A-Za-z]',x)

python - 从列中的字符串中删除不需要的部分

9 回答 9

如何从列中的字符串中删除不需要的部分？

.str.replace

.str.extract

.str.split和.str.get

优化：列表理解

性能比较

Related

Reference

`.str.replace`

`.str.extract`

`.str.split`和`.str.get`