linux - 使用 linux 命令清理 CSV 文件，同时忽略引号之间的逗号

Question

我有一个相当大的 CSV 文件，我需要偶尔将其导入 PostgreSQL 数据库，但它实际上总是包含太多错误，无法使用 SQL COPY 命令导入。通过使用以下 awk 命令，我设法解决了引号位于不应出现的位置的问题：

awk -F\" 'NF % 2 == 1 { 打印 $0 }' ./db_downloaded.csv > ./db_sanitized.csv

这会删除任何带有奇数引号的行，并且效果很好。我遇到的另一个常见问题是列数不正确。我目前对此问题的解决方案是使用以下 awk 命令删除任何逗号数量错误的行：

awk -F"," 'NF == 40 { print $0 }' ./db_sanitized.csv > ./db_sanitized2.csv

但是，这使得它会删除引号之间有逗号的任何行，这实际上是相当多的行。现在，导入每一行并不是那么重要，但如果我有办法只计算一行中没有出现在引号之间的逗号，我会非常喜欢它。我能想到的唯一方法是让某种布尔变量在每次流中有引号时翻转，这将关闭逗号检查，但我不确定我会从哪里开始打算这样做。

我最感兴趣的是使用可以在远程服务器上运行的 grep、awk、tr 等 linux 命令，而不是编写自己的 C++ 程序，但如果没有其他方法，我可能不得不走这条路。

编辑：我最终使用了这个 ruby 脚本：

lines = File.new("/home/db/product_list.csv", "r")
sanitized = File.new("/home/db/product_list_sanitized.csv", "w")

lines.each do |l|
  if l.count("\"") % 2 == 0
    if l.count(",") > 39
      u = true
      commas = 0
      l.each_char do |c|
        if (c == "\"")
          u = (not u)
        elsif (u && (c == ","))
          commas += 1
        end
      end
      sanitized.write(l) if commas == 39
    else
      sanitized.write(l)
    end
  end
end

sanitized.close

score 2 · Accepted Answer

隐藏原始行，用行为更良好的标记替换所有引号集，并检查它；如果匹配，则打印原件：

awk -F, '{line=$0;gsub(/"[^"]*"/,"x")}NF%2{print line}' test.in

linux - 使用 linux 命令清理 CSV 文件，同时忽略引号之间的逗号

1 回答 1

Related

Reference