0

所以,我正在使用一个文本文件,我正在对字符串执行以下操作

     def string_operations(string):

        1) lowercase
        2) remove integers from string
        3) remove symbols
        4) stemming

在此之后,我仍然留下如下字符串:

  durham 28x23

我看到了我的方法中的缺陷,但想知道是否有一种好的、快速的方法来识别字符串是否附加了一个数值。

所以在上面的例子中,我希望输出是

  durham

另一个例子:

 21st ammendment

应该给:

ammendment

那么我该如何处理这些东西呢?

4

1 回答 1

5

如果您的要求是“删除任何以数字开头的术语”,您可以执行以下操作:

def removeNumerics(s):
  return ' '.join([term for term in s.split() if not term[0].isdigit()])

这会在空格上拆分字符串,然后用空格连接所有不以数字开头的术语。

它的工作原理是这样的:

>>> removeNumerics('21st amendment')
'amendment'
>>> removeNumerics('durham 28x23')
'durham'

如果这不是您要查找的内容,则可以在您的问题中显示一些明确的示例(显示初始字符串和您想要的结果)。

于 2012-05-04T19:19:58.590 回答