我正在解析一个包含数百条记录的 ISI 文件,这些记录都以“”标记开头并以“ PT J
”标记结尾ER
。我试图从嵌套循环中的每条记录中提取标记信息,但不断收到 IndexError。我知道我为什么会得到它,但是有没有人有比检查前几个字符更好的方法来识别新记录的开始?
while file:
while line[1] + line[2] + line[3] + line[4] != 'PT J':
...
Search through and record data from tags
...
我正在使用同样的方法,因此偶尔会在识别标签时遇到同样的问题,所以如果您对此也有任何建议,我将不胜感激!
您会注意到,示例数据并不总是包含每条记录的每个标签:
PT J
AF Bob Smith
TI Python For Dummies
DT July 4, 2012
ER
PT J
TI Django for Dummies
DT 4/14/2012
ER
PT J
AF Jim Brown
TI StackOverflow
ER