python - 在正则表达式模式中获取捕获组的开始位置

Question

基本上，我想找到任何子字符串第一次出现的索引：“ABC”、“DEF”或“GHI”，只要它们以三个间隔出现。我为匹配此模式而编写的正则表达式是：

regex = compile ("(?:[a-zA-Z]{3})*?(ABC|DEF|GHI)")

*?确保我得到第一场比赛，因为它是非贪婪的。我正在使用捕获组，因为我认为这是实际获取我实际正在寻找的（子字符串的）索引的唯一方法。我不在乎比赛本身从哪里开始，只在乎捕获组从哪里开始。该...{3}...模式以 3 的间隔出现的要求，即：

example_1 = "BNDABCDJML"

example_2 = "JKMJABCKME"

example_1将匹配，因为"ABC"出现在位置 3，但不会example_2匹配，因为出现在位置 4。"ABC"

理想情况下，给定字符串：

text = "STCABCFFC"

这匹配，但如果我只是得到比赛的开始，它会给我0，因为那是比赛的开始索引，我想要的是3

我想这样做：

print match(regex, text).group(1).start()

但是，当然，这不起作用，因为start()它不是字符串的方法，而且字符串现在独立于text. 我不能简单地在捕获组中搜索子字符串的起始索引，因为这不能保证我遵循正则表达式模式（仅以 3 为间隔出现）。也许我忽略了一些东西，我没有在python中写太多，所以如果这是一个微不足道的问题，请原谅我。

score 6 · Accepted Answer

您可以从match对象 - re.MatchObject.start(group),获取开始和结束索引re.MatchObject.end(group)：

regex = compile ("(?:[a-zA-Z]{3})*?(ABC|DEF|GHI)") 

for m in re.finditer(regex, "STCABCFFC"):
    print m.start(1), m.end(1)
    print m.span(1)  # Prints 2-element tuple `(start, end)`

score 6 · Accepted Answer

你走在正确的轨道上。start是 MatchObject 的一种方法。这是他们在文档中给出的示例：

>>> email = "tony@tiremove_thisger.net"
>>> m = re.search("remove_this", email)
>>> email[:m.start()] + email[m.end():]
'tony@tiger.net'

基本上，而不是match(regex, text).group(1).start()你应该做match(regex, text).start(1).

python - 在正则表达式模式中获取捕获组的开始位置

2 回答 2

Related

Reference