2

我们有:

>>> str
'exit\r\ndrwxr-xr-x    2 root     root            0 Jan  1  2000 
\x1b[1;34mbin\x1b[0m\r\ndrwxr-xr-x    3 root     root           
0 Jan  1  2000 \x1b[1;34mlib\x1b[0m\r\ndrwxr-xr-x   10 root     
root            0 Jan  1  1970 \x1b[1;34mlocal\x1b[0m\r\ndrwxr-xr-x    
2 root     root            0 Jan  1  2000 \x1b[1;34msbin\x1b[0m\r\ndrwxr-xr-x    
5 root     root            0 Jan  1  2000 \x1b[1;34mshare\x1b[0m\r\n# exit\r\n'

>>> print str
exit
drwxr-xr-x    2 root     root            0 Jan  1  2000 bin
drwxr-xr-x    3 root     root            0 Jan  1  2000 lib
drwxr-xr-x   10 root     root            0 Jan  1  1970 local
drwxr-xr-x    2 root     root            0 Jan  1  2000 sbin
drwxr-xr-x    5 root     root            0 Jan  1  2000 share
# exit

我想使用正则表达式摆脱所有 '\xblah[0m' 废话。我试过了

re.sub(str, r'(\x.*m)', '')

但这并没有成功。有任何想法吗?

4

5 回答 5

11

你有几个问题:

  • 您以错误的顺序将参数传递给 re.sub 。它应该是:

    re.sub(regexp_pattern, 替换, source_string)

  • 该字符串不包含“\x”。"\x1b" 是转义字符,它是单个字符。

  • 正如 interjay 指出的那样,你想要“。*?” 而不是“.*”,否则它将匹配从第一个转义到最后一个“m”的所有内容。

对 re.sub 的正确调用是:

print re.sub('\x1b.*?m', '', s)

或者,您可以使用:

print re.sub('\x1b[^m]*m', '', s)
于 2009-12-02T16:17:08.867 回答
3

这些是ANSI 终端代码。它们由 ESC(字节 27,在 Python 中视为\x1B)发出信号,然后是[,然后是一些;- 分隔的参数,最后是一个字母来指定它是哪个命令。(m是颜色变化。)

参数通常是数字,因此对于这种简单的情况,您可以通过以下方式摆脱它们:

ansisequence= re.compile(r'\x1B\[[^A-Za-z]*[A-Za-z]')
ansisequence.sub('', string)

从技术上讲,对于一些(与颜色无关的)控制代码,它们可能是通用字符串,这使得解析很烦人。你很少会遇到这些,但如果你遇到了,我猜你必须使用一些复杂的东西,比如:

\x1B\[((\d+|"[^"]*")(;(\d+|"[^"]*"))*)?[A-Za-z]

最好的办法是说服生成字符串的任何东西你不是 ANSI 终端,因此它不应该在其输出中包含颜色代码。

于 2009-12-02T17:54:51.703 回答
3

您需要进行以下更改:

  • 转义反斜杠
  • 切换到非贪婪匹配。否则,第一个\x和最后一个之间的所有内容都m将被删除,当出现不止一次时,这将是一个问题。
  • 参数顺序不正确

结果:

re.sub(r'(\\x.*?m)', '', str)
于 2009-12-02T16:09:31.927 回答
2

尝试运行ls --color=never -l,你一开始就不会得到 ANSI 转义码。

于 2009-12-02T19:13:38.747 回答
1

这是针对您的问题的 pyparsing 解决方案,其中包含针对那些讨厌的转义序列的通用解析表达式。通过使用抑制表达式转换初始字符串,这将返回一个去除了表达式的所有匹配项的字符串。

s = \
'exit\r\ndrwxr-xr-x    2 root     root            0 Jan  1  2000 ' \
'\x1b[1;34mbin\x1b[0m\r\ndrwxr-xr-x    3 root     root           ' \
'0 Jan  1  2000 \x1b[1;34mlib\x1b[0m\r\ndrwxr-xr-x   10 root     ' \
'root            0 Jan  1  1970 \x1b[1;34mlocal\x1b[0m\r\ndrwxr-xr-x    ' \
'2 root     root            0 Jan  1  2000 \x1b[1;34msbin\x1b[0m\r\ndrwxr-xr-x    ' \
'5 root     root            0 Jan  1  2000 \x1b[1;34mshare\x1b[0m\r\n# exit\r\n' \

from pyparsing import (Literal, Word, nums, Combine, 
    delimitedList, oneOf, alphas, Suppress)

ESC = Literal('\x1b')
integer = Word(nums)
escapeSeq = Combine(ESC + '[' + delimitedList(integer,';') + oneOf(list(alphas)))

s_prime = Suppress(escapeSeq).transformString(s)

print s_prime

这将打印您想要的输出,存储在s_prime.

于 2009-12-02T18:06:41.127 回答