我有一个需要阅读的文件超过 50gb,所有字符都在一行中。
现在到了棘手的部分:我必须在所有双引号字符上拆分它,找到一个子字符串(srsName)并获取它后面的元素,该元素在拆分子字符串的 for 循环中具有 i+1 索引(“值”)。
问题:是否有一些渐进式搜索实现或其他方法可以用来代替填满我的记忆?
为简化起见:文件中有很多 srsName 子字符串,但我只需要读取其中一个,因为它们后面的值都相同。
关于文件的一些东西:它是为 xsl 转换准备的 xml。我不能使用创建缩进的 xslt,因为我需要尽可能少地使用磁盘/内存。
这就是值在文件中呈现的方式。
<sometag:sometext srsName="value">