python - Python 3.5 正则表达式无法读取文本文件

Question

将文本文件转换为文档字符串（与文字字符串相同）以使正则表达式工作是否是个好主意？我已经尝试将它转换为字符串，str()并在 re.xml 中使用多行模式。

我创建了一个基本脚本来通过 Python 解析出EnCase导出文件。它可以工作，但由于某种原因，我无法获得正则表达式代码来执行 findall 函数来搜索文件，除非我将文件的内容作为文档字符串存储在变量中。

file = '''

'''

这段代码似乎可以重复用于不同的文件，但是复制和粘贴每个文件内容变得很麻烦。还有其他建议吗？

EnCase 文件导出本质上是制表符分隔的，以下包含有关文件格式的信息。

另请参阅：从 EnCase 导出文件和文件夹

score 0 · Accepted Answer

只需阅读文件。这会给你一个字符串：

In [2]: with open('encase_example.md') as cf:
   ...:     data = cf.read()
   ...:     

In [3]: data[:41]
Out[3]: '\n1)\nName\tfile.doc\nFile Category\tDocument\n'

（仅显示部分字符串作为示例。）

请注意，在数据中，每条记录的字段之间有换行符，但每个字段的键和值之间有制表符。我们稍后将使用它。

这适用于正则表达式：

In [14]: re.findall('Full Path.*', data)
Out[14]: 
['Full Path\tproject\\D\\analysis\\system\\folder\\file.doc',
 'Full Path\tproject\\D\\analysis\\system\\folder\\file2.doc']

如果要分隔记录，只需拆分\n\n：

In [18]: records = data.split('\n\n')

In [19]: len(records)
Out[19]: 2

In [20]: records[0][:50]
Out[20]: '\n1)\nName\tfile.doc\nFile Category\tDocument\nFile Type'

您还可以将记录制作成字典：

In [35]: dict([ln.split('\t') for ln in records[0].splitlines()][2:])
Out[35]: 
{'Entry Modified': '12/18/14 11:18:53AM',
 'File Acquired': '04/28/15 01:54:45PM',
 'File Category': 'Document',
 'File Created': '03/29/14 03:22:59PM',
 'File Deleted': '',
 'File Type': 'Word Document',
 'Full Path': 'project\\D\\analysis\\system\\folder\\file.doc',
 'Is Deleted': '',
 'Last Written': '08/18/08 01:20:48PM',
 'Name': 'file.doc',
 'Physical Location': '546,930,589,696',
 'Physical Size': '32,768'}

python - Python 3.5 正则表达式无法读取文本文件

1 回答 1

Related

Reference