linux - 根据 bash 中的第一列将一个大的 CSV 文件分隔为较小的文件

Question

我有几个包含以下信息的大型 CSV 文件（每个约 20 MiB）。我想找到一种方法，根据第一列中的日期将此文件分成较小的文件。例如：下面的段将被分成2个文件，即20130719.csv和20130720.csv.

我还想根据第 4 列（颜色标签）进行排序（在每个较小的文件中）。有人对我如何做到这一点有任何建议吗？

在处理这些类型的东西时，我应该学习什么？

19/07/2013  19:14:24:523    6.35099E+17 Dr_Blue 10.42496014 27.17010689 0.685520172
19/07/2013  19:18:5:903 6.35099E+17 Dr_Yellow   11.09363079 28.57788467 2.010284424
19/07/2013  19:36:33:645    6.35099E+17 Dr_Blue 10.77513885 28.3723774  1.897870064
19/07/2013  21:29:36:762    6.35099E+17 Dr_Yellow   10.64018059 28.56962967 1.117245913
19/07/2013  21:29:37:627    6.35099E+17 Dr_Yellow   11.3354435  27.57170868 1.552354813
20/07/2013  2:34:28:2   6.35099E+17 Dr_Yellow   10.41067123 26.84050369 0.919301987
20/07/2013  2:34:28:840 6.35099E+17 Dr_Yellow   10.54369164 27.17712402 0.573934555
20/07/2013  2:34:33:192 6.35099E+17 Dr_Yellow   10.98471832 28.35677719 1.497600555
20/07/2013  4:20:28:246 6.35099E+17 Dr_Blue 10.92816448 28.55761147 2.187088013

score 2 · Accepted Answer

这是一个简化的shell版本

IFS="$IFS/"
while read DAY MO YR A B C D E F || [ "$DAY" ]; do
  echo "$A $B $C $D $E $F" >> "$YR$MO$DAY.ssv"
done <infile

for x in *.ssv; do
  sort -k4 $x |tr " " "," > ${x%.ssv}.csv
  rm $x
done

对于动态排序，awk 可能是更好的选择，具体取决于行的排序方式

score 0 · Accepted Answer

'csplit' 几乎可以满足您的需求，但您需要知道编写正则表达式以进行拆分的日期范围（如果您沿着这条路线走，您可以使用 'head' 和 'tail' 轻松获得它们。如果你不这样做知道他们还有 awk one-liner：

{ print $0 > gensub(/\//, ".", "g", $1) ".csv"; }

它将整行 $0 放入一个名为 $1.csv 的文件中。如果您的日期是用特殊字符以有趣的方式指定的，您可能需要对其进行按摩以使您的操作系统可以接受。'gensub' 用点替换正斜杠。

至于按颜色标签排序：您可以使用 shell 实用程序“sort -k4,4”来指定您只想对第四个字段进行排序，但您得到的字母顺序可能不是您想要的。然后又是“awk”，尽管我发现使用 awk 的动态数组进行排序（将所有行转储到一个数组中，然后在 END 规则中对其调用“asort”）并不是闪电般的快。

linux - 根据 bash 中的第一列将一个大的 CSV 文件分隔为较小的文件

2 回答 2

Related

Reference