我有一些文件,其中有随机顺序的不同数量的标题行,然后是我需要的数据,这些数据跨越了相应标题给定的行数。前任Lines: 3
from: blah@blah.com
Subject: foobarhah
Lines: 3
Extra: More random stuff
Foo Bar Lines of Data, which take up
some arbitrary long amount characters on a single line, but no matter how long
they still only take up the number of lines as specified in the header
如何在一次读取文件中获取该数据?PS 数据来自 20Newsgroups 语料库。
编辑:我猜只有在我放松对只读一次的限制时才有效的快速解决方案是:
- [第一次阅读] 找出
total_num_of_lines
并匹配第一个Lines:
标题, - [第二次阅读]我丢弃第一个
(total_num_of_lines- header_num_of_lines)
,然后阅读文件的其余部分
不过,我仍然不知道有一种方法可以一次性读取数据。