unix - 根据从另一个文件中选择的标题从文件中提取列

Question

我有以下想在 awk 中解决的问题。我有一个大文本表，逗号分隔，由 100k 行和 5k 列组成。第一行是标题，第一列是记录 ID。然后我有第二个文本文件，其中包含第一个文件中标题的子集。我想提取第一个文件的所有列，其标题包含在第二个文件中给出的列表中。这是输入和所需输出的示例：

数据.TXT

   ID, head1, head2, head3, head4  
    1, 25.5, 1364.0, 22.5, 13.2  
    2, 10.1, 215.56, 1.15, 22.2

列表.TXT

head1  
head4

期望的输出：

ID, head1, head4  
1, 25.5, 13.2  
2, 10.1, 22.2

任何人都可以就如何在 awk 中或通过 unix 脚本解决这个问题给我一些建议？提前感谢您的帮助！

score 4 · Accepted Answer

这里有一个有用的awk脚本，您可以使用它从 csv 文件中提取特定的列名。

我稍微修改了它，以便它可以从另一个文件中读取列名。将下面的脚本另存为dataExtractor.sh.

#!/bin/bash

DATAFILE=${1:-data.txt}
COLUMNFILE=${2:-list.txt}

awk -F, -v colsFile="$COLUMNFILE" '
   BEGIN {
     j=1
     while ((getline < colsFile) > 0) {
        col[j++] = $1
     }
     n=j-1;
     close(colsFile)
     for (i=1; i<=n; i++) s[col[i]]=i
   }
   NR==1 {
     for (f=1; f<=NF; f++)
       if ($f in s) c[s[$f]]=f
     next
   }
   { sep=""
     for (f=1; f<=n; f++) {
       printf("%c%s",sep,$c[f])
       sep=FS
     }
     print ""
   }
' "$DATAFILE"

运行它：

$ cat data.txt
ID,head1,head2,head3,head4
1,25.5,1364.0,22.5,13.2
2,10.1,215.56,1.15,22.2

$ cat list.txt
ID
head1
head4

$ dataExtractor.sh data.txt list.txt
1,25.5,13.2
2,10.1,22.2

score 4 · Accepted Answer

我有一个想法，但由于我没有 shell 编程经验（也不知道 awk），这看起来像是以一种荒谬的方式重新发明了一些轮子：

$ cat DATA.TXT 
ID, head1, head2, head3, head4
1, 25.5, 1364.0, 22.5, 13.2
2, 10.1, 215.56, 1.15, 22.2

$ cat LIST.TXT 
head1
head4

$ cols=($(sed '1!d;s/, /\n/g' DATA.TXT | grep -nf LIST.TXT | sed 's/:.*$//'))

$ cut -d ',' -f 1$(printf ",%s" "${cols[@]}") DATA.TXT 
ID, head1, head4
1, 25.5, 13.2
2, 10.1, 22.2

PS我从这个和这个答案中使用了一些关于bash数组的非常基本的想法。

unix - 根据从另一个文件中选择的标题从文件中提取列

2 回答 2

Related

Reference