我在尝试将较大的文件拆分成一堆较小的文件时遇到问题,其中一列中有新行。在我尝试拆分的 CSV 文件中,它的分隔符是管道 (|),每一行由换行符 (\n) 分隔。由于 1 列中有一堆换行符,它可能导致该 CSV 文件看起来像这样:
col1 | col2 | col3| 在这里插入一些东西
这就是意义
新文件
或格式
随机文本
正文 | col5 | col6 | col7
拆分时,它可能会导致我的文档(如果使用按行或字节拆分)仅在 col4 的中间拆分。如果发生这种情况,文件就会被弄乱,我以后无法处理它以将该数据插入我的表中。
我尝试使用 split 和 csplit,但我不确定是否可以根据行 + 分隔符实现良好的拆分。如果我尝试在匹配的地方使用 csplit 正则表达式(| 和换行符),它只会选择这个: text | col5 | col6 | col7 -> 所以不幸的是它也不起作用。
这里的解决方案用完了,也许 split 和 csplit 根本不可能,但我愿意接受建议。谢谢!