python - python中的“否定”模式匹配

Question

我有以下输入，

OK SYS 10 LEN 20 12 43
1233a.fdads.txt,23 /data/a11134/a.txt
3232b.ddsss.txt,32 /data/d13f11/b.txt
3452d.dsasa.txt,1234 /data/c13af4/f.txt
.

我想提取除包含“ ”的行和包含单个（点）的最后一行之外的所有输入。也就是说，我要提取以下内容OK SYS 10 LEN 20"."

1233a.fdads.txt,23 /data/a11134/a.txt
3232b.ddsss.txt,32 /data/d13f11/b.txt
3452d.dsasa.txt.1234 /data/c13af4/f.txt

我尝试了以下，

for item in output:
    matchObj = re.search("^(?!OK) | ^(?!\\.)", item)
    if matchObj:
        print "got item "  + item

但它不起作用，因为它不会产生任何输出。

score 55 · Accepted Answer

看看它在行动：

matchObj = re.search("^(?!OK|\\.).*", item)

不要忘记.*在负前瞻之后放置，否则您将无法获得任何匹配；-)

score 6 · Accepted Answer

6

 if not (line.startswith("OK ") or line.strip() == "."):
     print line

于 2012-08-23T12:08:28.433 回答

score 6 · Accepted Answer

使用否定匹配。（另请注意，默认情况下，正则表达式中的空格很重要，因此不要将内容隔开。或者，使用re.VERBOSE。）

for item in output:
    matchObj = re.search("^(OK|\\.)", item)
    if not matchObj:
        print "got item " + item

score 4 · Accepted Answer

为什么不匹配 OK SYS 行而不返回它。

for item in output:
    matchObj = re.search("(OK SYS|\\.).*", item)
    if not matchObj:
        print "got item "  + item

score 1 · Accepted Answer

如果这是一个文件，您可以简单地跳过第一行和最后一行，然后使用以下命令阅读其余部分csv：

>>> s = """OK SYS 10 LEN 20 12 43
... 1233a.fdads.txt,23 /data/a11134/a.txt
... 3232b.ddsss.txt,32 /data/d13f11/b.txt
... 3452d.dsasa.txt,1234 /data/c13af4/f.txt
... ."""
>>> stream = StringIO.StringIO(s)
>>> rows = [row for row in csv.reader(stream,delimiter=',') if len(row) == 2]
>>> rows
[['1233a.fdads.txt', '23 /data/a11134/a.txt'], ['3232b.ddsss.txt', '32 /data/d13f11/b.txt'], ['3452d.dsasa.txt', '1234 /data/c13af4/f.txt']]

如果它是一个文件，那么你可以这样做：

with open('myfile.txt','r') as f:
   rows = [row for row in csv.reader(f,delimiter=',') if len(row) == 2]

score 0 · Accepted Answer

0

and(re.search("bla_bla_pattern", str_item, re.IGNORECASE) == None)

正在工作中。

于 2015-05-01T15:38:10.700 回答

score 0 · Accepted Answer

您也可以在没有负面展望的情况下做到这一点。您只需在要提取的表达式部分添加括号。这个带括号的结构被命名为group.

让我们编写python代码：

string = """OK SYS 10 LEN 20 12 43
1233a.fdads.txt,23 /data/a11134/a.txt
3232b.ddsss.txt,32 /data/d13f11/b.txt
3452d.dsasa.txt,1234 /data/c13af4/f.txt
.
"""

search_result = re.search(r"^OK.*\n((.|\s)*).", string)

if search_result:
    print(search_result.group(1))

输出是：

1233a.fdads.txt,23 /data/a11134/a.txt
3232b.ddsss.txt,32 /data/d13f11/b.txt
3452d.dsasa.txt,1234 /data/c13af4/f.txt

^OK.*\n将找到带有 OK 语句的第一行，但我们不想提取它，所以不带括号。接下来是我们要捕获的部分：((.|\s)*)，所以把它放在括号内。在正则表达式的末尾，我们寻找一个点.，但我们也不想捕获它。

PS：我发现这个答案对于理解群体的力量非常有帮助。https://stackoverflow.com/a/3513858/4333811

score 0 · Accepted Answer

如果 OK 行是第一行，最后一行是点，您可以考虑像这样将它们切掉：

TestString = '''OK SYS 10 LEN 20 12 43
1233a.fdads.txt,23 /data/a11134/a.txt
3232b.ddsss.txt,32 /data/d13f11/b.txt
3452d.dsasa.txt,1234 /data/c13af4/f.txt
.
'''
print('\n'.join(TestString.split()[1:-1]))

但是，如果这是一个非常大的字符串，您可能会遇到内存问题。

python - python中的“否定”模式匹配

8 回答 8

Related

Reference