6

我有一个项目,我有一个文件,我需要从文件中提取字符串。基本上想到了linux中的“strings”命令,但我在python中这样做。下一个条件是文件作为流(例如字符串)提供给我,因此使用其中一个子进程函数来运行字符串的明显答案也不是一个选项。

我写了这段代码:

def isStringChar(ch):
    if ord(ch) >= ord('a') and ord(ch) <= ord('z'): return True
    if ord(ch) >= ord('A') and ord(ch) <= ord('Z'): return True
    if ord(ch) >= ord('0') and ord(ch) <= ord('9'): return True

    if ch in ['/', '-', ':', '.', ',', '_', '$', '%', '\'', '(', ')', '[', ']', '<', '>', ' ']: return True

# default out
return False

def process(stream):
dwStreamLen = len(stream)
if dwStreamLen < 4: return None

dwIndex = 0;
strString = ''
for ch in stream:
    if isStringChar(ch) == False:
        if len(strString) > 4:
            #print strString
            strString = ''
    else:
        strString += ch

这在技术上有效,但速度很慢。例如,我能够在 500Meg 的可执行文件上使用 strings 命令,它在不到 1 秒的时间内生成了价值 300k 的字符串。我通过上面的代码运行了相同的文件,花了 16 分钟。

是否有一个库可以让我在没有 python 延迟负担的情况下做到这一点?

谢谢!

4

2 回答 2

9

re使用Python 的正则表达式库,与 David Wolever 的速度相似。优化的简短故事是,您编写的代码越少,速度就越快。循环的库函数通常在 C 中实现,并且比您希望的要快。char in set()比检查自己更快也是如此。在这方面,Python 与 C 正好相反。

import sys
import re

chars = r"A-Za-z0-9/\-:.,_$%'()[\]<> "
shortest_run = 4

regexp = '[%s]{%d,}' % (chars, shortest_run)
pattern = re.compile(regexp)

def process(stream):
    data = stream.read()
    return pattern.findall(data)

if __name__ == "__main__":
    for found_str in process(sys.stdin):
        print found_str

在 4k 块中工作会很聪明,但在使用re. (其中两个字符位于 4k 块的末尾,接下来的 2 个字符位于下一个块的开头)

于 2011-07-24T03:27:40.437 回答
5

至少您的一个问题是您正在将整个流读入内存 ( … = len(stream)),另一个是您的isStringChar函数非常慢(函数调用相对较慢,而且您正在执行很多操作)。

最好是这样的:

import sys
import string

printable = set(string.printable)

def process(stream):
    found_str = ""
    while True:
        data = stream.read(1024*4)
        if not data:
            break
        for char in data:
            if char in printable:
                found_str += char
            elif len(found_str) >= 4:
                yield found_str
                found_str = ""
            else:
                found_str = ""

 if __name__ == "__main__":
     for found_str in process(sys.stdin):
        print found_str

这会更快,因为:

  • “字符可打印”查找是通过一组查找(和 O(1) 操作)执行的,它直接调用(如果我没记错的话)C 函数(这将非常快)。
  • 流以 4k 块进行处理,这将改善大型输入的内存使用和运行时间,因为不需要交换。
于 2011-07-24T02:59:46.987 回答