2

我在 MS Excel 2010 中有这个专栏 - 它结合了“邮政编码”和“电子邮件 ID”

我正在尝试从本专栏中提取这些邮政编码(20530、90012-3308 等)。

    20530 mark@ucvxcx.gov
    20530 kidafd@gmail.com
    20530 vladfeodsaf@usdodfaadj.govv
    20530 syadfadsbil.vvbvx@vnvnvn.gov
    20004 safdbnvis9dfg@infdda.gov
    20530 vhlhsdlf8dlfha@vbvbcxbUI.GOV
    90012-3308  h.james@asdfad.gov
    90012-3308  madsfl.hjlkdjd@pkdoi.gov
    90012 mark.fraser@ruskgb.zx

我尝试了 Python 的 re 模块。

import re


for i in range(1, 9):
     Cell(i, 4).value = re.findall(r'\d+', Cell(i, 1).value) #storing result in column4

我在该列上运行了正则表达式,得到了以下结果:

[u'20530']
[u'20530']
[u'20530']
[u'20530']
[u'20004', u'9']
[u'20530', u'8']
[u'90012', u'3308']
[u'90012', u'3308']
[u'90012']

如何将结果提取为人类可读的邮政编码形式?

4

3 回答 3

6

你为什么不能split呢?

>>> '20530 mark@ucvxcx.gov'.split()
['20530', 'mark@ucvxcx.gov']

然后只需抓住第一个元素。

>>> '20530 mark@ucvxcx.gov'.split()[0]
'20530'

对于您的所有数据:

l = ['20530 mark@ucvxcx.gov',
     '20530 kidafd@gmail.com',
     '20530 vladfeodsaf@usdodfaadj.gov',
     '20530 syadfadsbil.vvbvx@vnvnvn.gov',
     '20004 safdbnvis9dfg@infdda.gov',
     '20530 vhlhsdlf8dlfha@vbvbcxbUI.GOV',
     '90012-3308  h.james@asdfad.gov',
     '90012-3308  madsfl.hjlkdjd@pkdoi.gov',
     '90012 mark.fraser@ruskgb.zx']

[entry.split()[0] for entry in l]

结果

['20530', '20530', '20530', '20530', '20004', '20530', '90012-3308', '90012-3308', '90012']
于 2014-05-15T19:03:47.177 回答
2

以下正则表达式将匹配每个字符串并将邮政编码提取为组 1:

([\d\-]+)\s+[\w@\.]+

这是一次提取所有邮政编码的 Python 代码:

import re
text = r'''    20530 mark@ucvxcx.gov
    20530 kidafd@gmail.com
    20530 vladfeodsaf@usdodfaadj.govv
    20530 syadfadsbil.vvbvx@vnvnvn.gov
    20004 safdbnvis9dfg@infdda.gov
    20530 vhlhsdlf8dlfha@vbvbcxbUI.GOV
    90012-3308  h.james@asdfad.gov
    90012-3308  madsfl.hjlkdjd@pkdoi.gov
    90012 mark.fraser@ruskgb.zx'''
re.compile(r'([\d\-]+)\s+[\w@\.]+').findall(text)
于 2014-05-15T19:05:50.503 回答
1

只是针对您在 DataNitro 上的原始问题的附加说明。

已经做了很多这样的 DataNitro loopinfg 并且在整个专栏中最有效的阅读方式是:

l = Cell("A1").vertical
# returns a list of all values starting in A1 going down to 1st blank cell

结合@cyber 的解决方案,两个班轮将为您提供答案:

l = Cell("A1").vertical
[entry.split()[0] for entry in l]

或者,如果您更喜欢正则表达式的灵活性,Johnathan Benn 的答案会变成:

l = Cell("A1").vertical
[re.compile(r'([\d\-]+)\s+[\w@\.]+').findall(entry) for entry in l]
于 2014-07-30T08:22:06.500 回答