我有一个非常大的 xml 文件(1.25 GB),我需要将其拆分为较小的文件才能处理它们。该文件包含以标签开头和结尾的语言数据:
< 文本 id="www.example.com>
和
</文>
我想用这些标签分割较大的文件。因此,例如,
< 文本 id="www.example.com>
你好
</文>
< 文本 id="www.example.com>
这是
</文>
< 文本 id="www.example.com>
一个例子
</文>
本质上是三个不同的文件:开始和结束由“文本”标签标记。例如:
文件 1
< 文本 id="www.example.com>
你好
</文>
文件 2
< 文本 id="www.example.com>
这是
</文>
文件 3
< 文本 id="www.example.com>
一个例子
</文>
例如,我想这可以通过在 Perl 中编写脚本来完成,但我想知道是否有任何一种“一站式”方式来使用 unix 分割这个文件。
我知道拆分命令对于根据行或文件大小将大文件拆分为较小的文件很有用。但是,是否有类似的命令允许通过 xml 标签进行拆分?
提前感谢您的帮助!