我对 Python 相当陌生。
我有一个包含近 500k 行文本的 .txt 文件。一般结构是这样的:
WARC-TREC-ID:
你好
我的
姓名
是
WARC-TREC-ID:
例子
文本
WARC-TREC-ID:
我想提取“WARC-TREC-ID:”关键字之间的所有内容。
这是我已经尝试过的:
content_list = []
with open('C://Users//HOME//Desktop//Document_S//corpus_test//00.txt', errors = 'ignore') as openfile2:
for line in openfile2:
for item in line.split("WARC-TREC-ID:"):
if "WARC-TREC-ID:" in item:
content = (item [ item.find("WARC-TREC-ID:")+len("WARC-TREC-ID:") : ])
content_list.append(content)
这将返回一个空列表。
我也试过:
import re
with open('C://Users//HOME//Desktop//Document_S//corpus_test//00.txt', 'r') as openfile3:
m = re.search('WARC-TREC-ID:(.+?)WARC-TREC-ID:', openfile3)
if m:
found = m.group(1)
这会导致 TypeError: expected string or bytes-like object