6

我有以下想在 awk 中解决的问题。我有一个大文本表,逗号分隔,由 100k 行和 5k 列组成。第一行是标题,第一列是记录 ID。然后我有第二个文本文件,其中包含第一个文件中标题的子集。我想提取第一个文件的所有列,其标题包含在第二个文件中给出的列表中。这是输入和所需输出的示例:

数据.TXT

   ID, head1, head2, head3, head4  
    1, 25.5, 1364.0, 22.5, 13.2  
    2, 10.1, 215.56, 1.15, 22.2  

列表.TXT

head1  
head4  

期望的输出:

ID, head1, head4  
1, 25.5, 13.2  
2, 10.1, 22.2

任何人都可以就如何在 awk 中或通过 unix 脚本解决这个问题给我一些建议?提前感谢您的帮助!

4

2 回答 2

4

这里有一个有用的awk脚本,您可以使用它从 csv 文件中提取特定的列名。

我稍微修改了它,以便它可以从另一个文件中读取列名。将下面的脚本另存为dataExtractor.sh.

#!/bin/bash

DATAFILE=${1:-data.txt}
COLUMNFILE=${2:-list.txt}

awk -F, -v colsFile="$COLUMNFILE" '
   BEGIN {
     j=1
     while ((getline < colsFile) > 0) {
        col[j++] = $1
     }
     n=j-1;
     close(colsFile)
     for (i=1; i<=n; i++) s[col[i]]=i
   }
   NR==1 {
     for (f=1; f<=NF; f++)
       if ($f in s) c[s[$f]]=f
     next
   }
   { sep=""
     for (f=1; f<=n; f++) {
       printf("%c%s",sep,$c[f])
       sep=FS
     }
     print ""
   }
' "$DATAFILE"

运行它:

$ cat data.txt
ID,head1,head2,head3,head4
1,25.5,1364.0,22.5,13.2
2,10.1,215.56,1.15,22.2

$ cat list.txt
ID
head1
head4

$ dataExtractor.sh data.txt list.txt
1,25.5,13.2
2,10.1,22.2
于 2012-06-19T10:22:22.793 回答
4

我有一个想法,但由于我没有 shell 编程经验(也不知道 awk),这看起来像是以一种荒谬的方式重新发明了一些轮子:

$ cat DATA.TXT 
ID, head1, head2, head3, head4
1, 25.5, 1364.0, 22.5, 13.2
2, 10.1, 215.56, 1.15, 22.2

$ cat LIST.TXT 
head1
head4

$ cols=($(sed '1!d;s/, /\n/g' DATA.TXT | grep -nf LIST.TXT | sed 's/:.*$//'))

$ cut -d ',' -f 1$(printf ",%s" "${cols[@]}") DATA.TXT 
ID, head1, head4
1, 25.5, 13.2
2, 10.1, 22.2

PS我从这个这个答案中使用了一些关于bash数组的非常基本的想法。

于 2012-06-19T10:23:50.590 回答