python - 外向英国邮政编码的 Python 正则表达式

Question

我已经查看并尝试了有关此主题的先前问题的解决方案（此处和此处），但无法使其正常工作。

我正在寻找英国邮政编码外部的正则表达式。在“PO1 1AF”中，PO1为去往邮编或邮编区，1AF为去往邮编。我有一长串网址，其中一些网址末尾有一个外部邮政编码。

例如，我想要这两个字符串中的“ab15”和“dd9”：

string1= "www.xyz.com/abcdab15/"
string2 = "www.xyz.com/adbdd9"

外部邮政编码的排列是：

A9
A9A
A99
AA9
AA9A
AA99

我从上一个答案中尝试了这个解决方案，它旨在匹配内部、外部或两者，但它不返回任何内容（答案是大写字母）：

exp = '^((([A-PR-UWYZ][0-9])|([A-PR-UWYZ][0-9][0-9])|([A-PR-UWYZ][A-HK-Y][0-9])|([A-PR-UWYZ][A-HK-Y][0-9][0-9])|([A-PR-UWYZ][0-9][A-HJKSTUW])|([A-PR-UWYZ][A-HK-Y][0-9][ABEHMNPRVWXY]))) || ^((GIR)[ ]?(0AA))$|^(([A-PR-UWYZ][0-9])[ ]?([0-9][ABD-HJLNPQ-UW-Z]{0,2}))$|^(([A-PR-UWYZ][0-9][0-9])[ ]?([0-9][ABD-HJLNPQ-UW-Z]{0,2}))$|^(([A-PR-UWYZ][A-HK-Y0-9][0-9])[ ]?([0-9][ABD-HJLNPQ-UW-Z]{0,2}))$|^(([A-PR-UWYZ][A-HK-Y0-9][0-9][0-9])[ ]?([0-9][ABD-HJLNPQ-UW-Z]{0,2}))$|^(([A-PR-UWYZ][0-9][A-HJKS-UW0-9])[ ]?([0-9][ABD-HJLNPQ-UW-Z]{0,2}))$|^(([A-PR-UWYZ][A-HK-Y0-9][0-9][ABEHMNPRVWXY0-9])[ ]?([0-9][ABD-HJLNPQ-UW-Z]{0,2}))$'

import re

url1= "www.xyz.com/abcdAB15/"
url2 = "www.xyz.com/adbDD9"

postalCode = re.findall(exp,url1)
print postalCode[0]

这是没有所有 $ 和 ^ 锚的表达式，如下所示：

exp = '((([A-PR-UWYZ][0-9])|([A-PR-UWYZ][0-9][0-9])|([A-PR-UWYZ][A-HK-Y][0-9])|([A-PR-UWYZ][A-HK-Y][0-9][0-9])|([A-PR-UWYZ][0-9][A-HJKSTUW])|([A-PR-UWYZ][A-HK-Y][0-9][ABEHMNPRVWXY]))) || ((GIR)[ ]?(0AA))|(([A-PR-UWYZ][0-9])[ ]?([0-9][ABD-HJLNPQ-UW-Z]{0,2}))|(([A-PR-UWYZ][0-9][0-9])[ ]?([0-9][ABD-HJLNPQ-UW-Z]{0,2}))|(([A-PR-UWYZ][A-HK-Y0-9][0-9])[ ]?([0-9][ABD-HJLNPQ-UW-Z]{0,2}))|(([A-PR-UWYZ][A-HK-Y0-9][0-9][0-9])[ ]?([0-9][ABD-HJLNPQ-UW-Z]{0,2}))|(([A-PR-UWYZ][0-9][A-HJKS-UW0-9])[ ]?([0-9][ABD-HJLNPQ-UW-Z]{0,2}))|(([A-PR-UWYZ][A-HK-Y0-9][0-9][ABEHMNPRVWXY0-9])[ ]?([0-9][ABD-HJLNPQ-UW-Z]{0,2}))'

score 2 · Accepted Answer

鉴于您列出的外部邮政编码的可能性，它可以描述为：

一两个字母
后跟一个数字
可选地后跟一个字母或数字

用正则表达式来说，是这样的：

[a-z]{1,2}[0-9][a-z0-9]?

...但您只想在 URL 的末尾找到该模式（可能后跟一个斜杠），所以我们将添加一个前瞻：

[a-z]{1,2}[0-9][a-z0-9]?(?=/?$)

您问题中的完整邮政编码正则表达式包含许多不同的排除项。例如，看起来 V、Q 和 X 在某些地方是不允许的，而且显然还有其他限制——我不会费心去尝试复制那些（阅读其他人的正则表达式从来都不是有趣的）......但是使用我们有什么：

>>> import re
>>> postcode = re.compile("[a-z]{1,2}[0-9][a-z0-9]?(?=/?$)")
>>> string1= "www.xyz.com/abcdab15/"
>>> string2 = "www.xyz.com/adbdd9"
>>> re.findall(postcode, string1)
['ab15']
>>> re.findall(postcode, string2)
['dd9']

score 1 · Accepted Answer

问题在于^$锚点，它们分别锚定字符串的开头和结尾，这意味着正则表达式只会匹配整个字符串。从每个交替中删除它们（expsplit on |），它将起作用。

python - 外向英国邮政编码的 Python 正则表达式

2 回答 2

Related

Reference