python - 解析制表符分隔的文件

Question

我很抱歉这个问题有点含糊，我对 Python 很陌生......

我需要解析一个制表符分隔的文本文件。这是一个非常大的文件，我试图从中识别和提取特定的东西。例如，如果一行是：

【苹果香蕉樱桃枣】我想搜索并识别“苹果”一词，然后提取“日期”一词。

然后，我需要访问提取的术语列表并使用它们（用于与其他列表进行比较等）

我已经阅读过正则表达式，但是虽然这似乎对搜索很有用，但我不知道如何使用它来提取搜索关键字以外的术语。另外，我不确定如何访问/操作解析后的结果数组..

任何帮助/方向/指针/建议/示例都会很棒。

太感谢了！

score 3 · Accepted Answer

如果文件是制表符分隔的，通常是使用csv模块的标志：

>>> import csv
>>> with open('eggs.csv', 'rb') as csvfile:
...     reader = csv.reader(csvfile, dialect=csv.excel_tab)
...     for row in reader:
...         print row

如果没有任何具体的例子，很难说更多。

score 1 · Accepted Answer

http://docs.python.org/2/library/re.html

这是一个简单的例子：

import re
# This regular expression detects base-64 encoded images
regex = '(?P<src>data:image/png;base64, (?<image>[^"]*))'
# you can then either
# a)
matches = re.findall(regex, your_input_string)
for m in matches:
    # address your matches with index notation
    src = m[0]
    data = m[1]
# b)
src = re.search(regex, your_input_string).group('src')
data = re.search(regex, your_input_string).group('data')

python - 解析制表符分隔的文件

2 回答 2

Related

Reference