1

我在尝试将较大的文件拆分成一堆较小的文件时遇到问题,其中一列中有新行。在我尝试拆分的 CSV 文件中,它的分隔符是管道 (|),每一行由换行符 (\n) 分隔。由于 1 列中有一堆换行符,它可能导致该 CSV 文件看起来像这样:

col1 | col2 | col3| 在这里插入一些东西

这就是意义

新文件

或格式

随机文本

正文 | col5 | col6 | col7

拆分时,它可能会导致我的文档(如果使用按行或字节拆分)仅在 col4 的中间拆分。如果发生这种情况,文件就会被弄乱,我以后无法处理它以将该数据插入我的表中。

我尝试使用 split 和 csplit,但我不确定是否可以根据行 + 分隔符实现良好的拆分。如果我尝试在匹配的地方使用 csplit 正则表达式(| 和换行符),它只会选择这个: text | col5 | col6 | col7 -> 所以不幸的是它也不起作用。

这里的解决方案用完了,也许 split 和 csplit 根本不可能,但我愿意接受建议。谢谢!

4

0 回答 0