1

我很抱歉这个问题有点含糊,我对 Python 很陌生......

我需要解析一个制表符分隔的文本文件。这是一个非常大的文件,我试图从中识别和提取特定的东西。例如,如果一行是:

【苹果香蕉樱桃枣】我想搜索并识别“苹果”一词,然后提取“日期”一词。

然后,我需要访问提取的术语列表并使用它们(用于与其他列表进行比较等)

我已经阅读过正则表达式,但是虽然这似乎对搜索很有用,但我不知道如何使用它来提取搜索关键字以外的术语。另外,我不确定如何访问/操作解析后的结果数组..

任何帮助/方向/指针/建议/示例都会很棒。

太感谢了!

4

2 回答 2

3

如果文件是制表符分隔的,通常是使用csv模块的标志:

>>> import csv
>>> with open('eggs.csv', 'rb') as csvfile:
...     reader = csv.reader(csvfile, dialect=csv.excel_tab)
...     for row in reader:
...         print row

如果没有任何具体的例子,很难说更多。

于 2013-07-03T08:05:29.347 回答
1

http://docs.python.org/2/library/re.html

这是一个简单的例子:

import re
# This regular expression detects base-64 encoded images
regex = '(?P<src>data:image/png;base64, (?<image>[^"]*))'
# you can then either
# a)
matches = re.findall(regex, your_input_string)
for m in matches:
    # address your matches with index notation
    src = m[0]
    data = m[1]
# b)
src = re.search(regex, your_input_string).group('src')
data = re.search(regex, your_input_string).group('data')
于 2013-07-03T08:04:19.197 回答