python - re 和数字的问题

Question

def de_punctuate(xs):
    return re.findall(r"[\w']+(?:-[\w']+)*", xs)

numbers = partial(re.search, r'[0,9]')

def no_numbers(xs):
    return filterfalse(numbers, xs)

def string2filter(xs):
    return no_numbers(de_punctuate(xs))

for d in data:
    print(d)
    print(list(string2filter(d)))

输出：

Nordmann brukte mobilen i ett døgn i Afrika - må ut med 137.000 kroner
['Nordmann', 'brukte', 'mobilen', 'i', 'ett', 'døgn', 'i', 'Afrika', 'må', 'ut', 'med', '137', 'kroner']

400.000 japanere evakueres fra flom
['japanere', 'evakueres', 'fra', 'flom']

Utvist i 2009 - nå siktet for overfallsvoldtekt i 2011
['Utvist', 'i', 'nå', 'siktet', 'for', 'overfallsvoldtekt', 'i']

Selvmordsangrep mot afghansk bryllupsfest - Minst 22 drepte
['Selvmordsangrep', 'mot', 'afghansk', 'bryllupsfest', 'Minst', '22', 'drepte']

我很困惑为什么输出与数字不一致。不应该有。在某些情况下这是正确的，但对于其他情况，它们仍然存在。见输出 1 和 4。

有任何想法吗？

我想测试每个word以防出现以下错误：this3

我可以在第一个重新表达式中包含一个数字搜索，这样我就不必进行两次通过了吗？

答案是：

def stripsplit(xs):
    """ return a list, excluding numbers and punctuation (except joining hyphens) """
    return re.findall(r"[a-zA-ZåøæÅØÆ']+(?:-[a-zA-ZåøæÅØÆ']+)*", xs)

score 3 · Accepted Answer

要搜索数字，而不是r'[0,9]'您应该使用'[0-9]'or '\d'。

（[0,9]匹配 '0' 或 ',' 或 '9'，这不是你的意思）

编辑： \w相当于[a-zA-Z0-9_]. 为什么不直接使用[a-zA-Z']呢？

python - re 和数字的问题

1 回答 1

Related

Reference