我有一个需要放入字典的外部文件。每篇文章都以 开头<NEW DOCUMENT>
,我不知道如何从文件中提取所有信息,从下面的行开始,<newdoc>
在到达另一行之前结束<newdoc>
。这是我到目前为止所拥有的。
for line in file2:
line = line.strip()
line_list = line.split()
if "NEW DOCUMENT" in line:
doc_num+=1
new_dict[doc_num] = line
print(new_dict)
该文件看起来像这样。
<NEW DOCUMENT>
Look on the bright
side of Life.
<NEW DOCUMENT>
look on the very, dark
side of the Moon