我正在做一些研究,我在一个大文本文件中有 +25,000 份报告。每个报告均按“TEXTSTART[UNIQUE-ID]”和“TEXTEND”划分。
到目前为止,我已经成功地使用以下代码从 txt 文件中读取了一个报告(即标识符之间的文本):
f = open("samples_combined_incomplete.txt","r" )
report = f.read()
f.close()
rstart = "TEXTSTART"
rend = "TEXTEND"
a = ((report.split(rstart))[1].split(rend)[0])
print (a)
我的问题是这个;如何根据 TEXTSTART[UNIQUE-ID] 将文本文档划分为唯一可识别的子字符串?以及应该如何返回ID?
我才刚刚开始,所以任何关于文档、有用功能等的建议都会非常有用。
谢谢你,就像一个魅力!ID 是数字和字符的组合,仅供参考。
f = open("samples_combined_incomplete.txt","r" )
report = f.read()
f.close()
rstart = "TEXTSTART"
rend = "TEXTEND"
a = 0
dict = re.findall('TEXTSTART\[(.*?)\](.*?)TEXTEND', report, re.DOTALL)
while a < 10:
print (dict[a])
a += 1
如果我想在容器中搜索特定关键字并返回键,我该怎么做?